如何诊断节点重启问题-mysql教程-PHP中文網

首頁

資料庫

mysql教程

如何诊断节点重启问题

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:01 PM

rac 如何環境節點診斷重啟問題

本文对如何诊断RAC环境中节点重启问题进行了介绍。适用于10gR2和11gR1. 首先我们对能够导致节点重启的CRS进程进行介绍。 1.ocssd : 它的主要功能是节点监控（Node Monitoring）和组管理(Group Management),它是CRS的核心进程之一。节点监控是指监控集群中节

本文对如何诊断RAC环境中节点重启问题进行了介绍。适用于10gR2和11gR1.

首先我们对能够导致节点重启的CRS进程进行介绍。

1.ocssd : 它的主要功能是节点监控（Node Monitoring）和组管理(Group Management),它是CRS的核心进程之一。节点监控是指监控集群中节点的健康，监控的方法是通过网络心跳(network heartbeat)和磁盘心跳（disk heartbeat）实现的，如果集群中的节点连续丢失磁盘心跳或网络心跳，该节点就会被从集群中驱逐，也就是节点重启。组管理导致的节点重启，我们称之为node kill escalation（只有在11gR1以及以上版本适用）,我们会在后面的文章进行详细介绍。重启需要在指定的时间（reboot time,一般为3秒）内完成。

网络心跳:ocssd.bin进程每秒钟向集群中的各个节点通过私网发送网络心跳信息，以确认各个节点是否正常。如果某个节点连续丢失网络心跳达到阀值，misscount（默认为30秒，如果存在其他集群管理软件则为600秒），集群会通过表决盘进行投票，使丢失网络心跳的节点被主节点驱逐出集群，即节点重启。如果集群只包含2个节点，则会出现脑裂，结果是节点号小的节点存活下来，即使是节点号小的节点存在网络问题。

磁盘心跳：ocssd.bin进程每秒钟都会向所有表决盘（Voting File）注册本节点的状态信息，这个过程叫做磁盘心跳。如果某个节点连续丢失磁盘心跳达到阀值，disk timeou(一般为200秒)，则该节点会自动重启以保证集群的一致性。另外，CRS只要求[N/2]+1个表决盘可用即可，其中N为表决盘数量，一般为奇数。

2.oclsomon：这个进程负责监控ocssd是否挂起，如果发现ocssd.bin存在性能问题，则重启该节点。

3.oprocd：这个进程只在Linux和Unix系统，并且第三方集群管理软件未安装的情况下才会出现。如果它发现节点挂起,则重启该节点。

注意：以上的所有进程都是由脚本init.cssd产生的。

接下来是诊断节点重启问题是经常搜集的信息。

1．操作系统日志

2．/log//cssd/ocssd.log

3．oprocd.log(/etc/oracle/oprocd/*.log.* 或 /var/opt/oracle/oprocd/*.log.*)

4．/log//cssd/oclsomon/oclsomon.log

5. Oracle OSWatcher 报告

接下来我们讨论如何诊断节点重启问题。

1．由ocssd导致的节点重启。

如果在ocssd.log中出现以下错误，则表示节点重启是由于丢失网络心跳。接下来需要查看和网络相关的信息，如操作系统日志，OSW报表（traceroute的输出），以确定网络层面（cluster interconnect）是否存在问题，并确定最终的原因。

[ CSSD]2012-03-02 23:56:18.749 [3086] >WARNING: clssnmPollingThread: node <node_name> at 50% heartbeat fatal, eviction in 14.494 seconds
[ CSSD]2012-03-02 23:56:25.749 [3086] >WARNING: clssnmPollingThread: node <node_name> at 75% heartbeat fatal, eviction in 7.494 seconds
[ CSSD]2012-03-02 23:56:32.749 [3086] >WARNING: clssnmPollingThread: node <node_name>at 90% heartbeat fatal, eviction in 0.494 seconds
[CSSD]2012-03-02 23:56:33.243 [3086] >TRACE: clssnmPollingThread: Eviction started for node <node_name>, flags 0x040d, state 3, wt4c 0
[CSSD]2012-03-02 23:56:33.243 [3086] >TRACE: clssnmDiscHelper: <node_name>, node(4) connection failed, con (1128a5530), probe(0)
[CSSD]2012-03-02 23:56:33.243 [3086] >TRACE: clssnmDiscHelper: node 4 clean up, con (1128a5530), init state 5, cur state 5
[CSSD]2012-03-02 23:56:33.243 [3600] >TRACE: clssnmDoSyncUpdate: Initiating sync 196446491
[CSSD]2012-03-02 23:56:33.243 [3600] >TRACE: clssnmDoSyncUpdate: diskTimeout set to (27000)ms</node_name></node_name></node_name></node_name></node_name>

登入後複製

注意：如果在主节点的ocssd.log中出现以上信息的时间点要晚于节点的重启时间，则说明节点重启的原因不是丢失网络心跳。

如果ocssd.log中出现以下错误，则表示节点重启是由于丢失磁盘心跳。接下来需要查看操作系统日志，OSWatcher报告（iostat的输出），以确定i/o层面是否存在问题，并确定最终的原因。

2010-08-13 18:34:37.423: [ CSSD][150477728]clssnmvDiskOpen: Opening /dev/sdb8
2010-08-13 18:34:37.423: [ CLSF][150477728]Opened hdl:0xf4336530 for dev:/dev/sdb8:
2010-08-13 18:34:37.429: [ SKGFD][150477728]ERROR: -9(Error 27072, OS Error (Linux Error: 5: Input/output error
Additional information: 4
Additional information: 720913
Additional information: -1)
)
2010-08-13 18:34:37.429: [ CSSD][150477728](:CSSNM00060: )clssnmvReadBlocks: read failed at offset 17 of /dev/sdb8
2010-08-13 18:34:38.205: [ CSSD][4110736288](:CSSNM00058: )clssnmvDiskCheck: No I/O completions for 200880 ms for voting file /dev/sdb8)
2010-08-13 18:34:38.206: [ CSSD][4110736288](:CSSNM00018: )clssnmvDiskCheck: Aborting, 0 of 1 configured voting disks available, need 1
2010-08-13 18:34:38.206: [ CSSD][4110736288]###################################
2010-08-13 18:34:38.206: [ CSSD][4110736288]clssscExit: CSSD aborting from thread clssnmvDiskPingMonitorThread
2010-08-13 18:34:38.206: [ CSSD][4110736288]###################################

登入後複製

2. 由oclsomon导致的节点重启。

如果在oclsomon.log 中出现错误，则表示节点重启是由于ocssd进程挂起，由于ocssd进程拥有实时（RT）优先级，很可能此时操作系统存在资源（如cpu）竞争，接下来需要察看操作系统日志，OSW报表（vmstat，top的输出），以确定最终的原因。

3．由oprocd导致的节点重启。

如果在oprocd日志中出现以下信息，则表明节点重启是由oprocd进程导致。

Dec 21 16:15:30.369857 | LASTGASP | AlarmHandler: timeout(2312 msec) exceeds interval(1000 msec)+margin(500 msec). Rebooting NOW.

登入後複製

由于oprocd进程通过查看系统时间以确定操作系统是否挂起，正确的配置ntp（或其他时间同步软件），调整diagwait=13 可以避免节点重启，另外，如果需要大幅度修改系时间，建议首先停止CRS，在修改完成之后再重新启动。当然，我们也不排除操作系统挂起导致oprocd重启节点，所以，也需要查看OSWatcher报告（vmstat，top的输出），以确定最终的原因。

本文只是对诊断节点重启问题的思路进行了介绍，在具体实际问题当中还需要灵活运用。

关于更多的信息，请阅读以下的MOS 文章。

Note 265769.1 ：Troubleshooting 10g and 11.1 Clusterware Reboots

Note 1050693.1 ：Troubleshooting 11.2 Clusterware Node Evictions (Reboots)

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7478

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

三星s24Ultra怎麼重開手機？ Feb 09, 2024 pm 09:54 PM

使用三星S24Ultra手機時，偶爾會遇到一些問題或需要重置裝置的情況。在這種情況下，重啟手機是常見的解決方案。然而，如果你對操作步驟不太了解，你可能會感到困惑。不過，別擔心，我將向您介紹如何正確地重新啟動三星S24Ultra手機。三星s24Ultra怎麼重啟手機1、調出控制選單關機：從三星的螢幕上方下滑調出快捷工具選單，點擊電源圖示(圓弧和垂直線的組合形狀)即可調出關機及重啟的選擇介面，點擊重新啟動即可;2、利用組合鍵關機：長按音量-鍵加電源鍵也可調出關機重開選擇選單，點選選擇關機即可。透過按下並保

無法引導到Windows復原環境 Feb 19, 2024 pm 11:12 PM

Windows復原環境（WinRE）是用來修復Windows作業系統錯誤的環境。進入WinRE後，您可以執行系統還原、出廠重設、卸載更新等操作。如果無法引導到WinRE，本文將指導您使用修復程式解決此問題。無法引導至Windows復原環境如果無法引導至Windows復原環境，請使用下方提供的修復程式：檢查Windows復原環境的狀態使用其他方法進入Windows復原環境您是否意外刪除了Windows復原分割區？執行Windows的就地升級或全新安裝下面，我們已經詳細解釋了所有這些修復。 1]檢查Wi

解決電腦提示'reboot and select proper boot device'的方法 Jan 15, 2024 pm 02:00 PM

重裝系統也未必是個萬全之策，可是重裝後發現電腦開機會顯示黑底白字，然後給出提示：rebootandselectproperbootdevice，這是怎麼回事？出現這樣的提示一般是引導出錯所致。為了幫助到了大家，為此，小編就為大家帶來了解決的方法了。電腦使用是越來越普及了而遇到電腦的故障也越來越來多，這不，最近有用戶在電腦開機時遇到顯示黑屏，並提示RebootandSelectproperBootdevice，無法正常啟動電腦系統。這是怎麼回事呢？又該怎麼去解決呢？讓用戶一頭霧水，下面，小編就來跟

PHP 500錯誤全面指南：原因、診斷與修復 Mar 22, 2024 pm 12:45 PM

PHP500錯誤全面指南：原因、診斷與修復在PHP開發過程中，我們常會遇到HTTP狀態碼為500的錯誤。這種錯誤通常被稱為"500InternalServerError"，它是指在伺服器端處理請求時發生了一些未知的錯誤。在本文中，我們將探討PHP500錯誤的常見原因、診斷方法以及修復方法，並提供具體的程式碼範例供參考。 1.500錯誤的常見原因1.

Linux 重啟服務的正確方式是什麼？ Mar 15, 2024 am 09:09 AM

Linux重啟服務的正確方式是什麼？在使用Linux系統時，經常會遇到需要重新啟動某個服務的情況，但是有時我們可能會在重新啟動服務時遇到一些問題，例如服務沒有真正停止或啟動等情況。因此，掌握正確的重啟服務的方式是非常重要的。在Linux中，通常可以使用systemctl指令來管理系統服務。 systemctl指令是systemd系統管理員的一部分

魅族21pro怎麼關機重開機？ Mar 18, 2024 pm 02:28 PM

魅族21Pro是一款備受歡迎的智慧型手機，它擁有出色的性能和豐富的功能。但有時我們可能需要執行關機或重新啟動等操作。如果您需要了解如何關機或重啟魅族21Pro，以下將為您詳細介紹操作步驟。魅族21pro怎麼關機重開機？方法一：平時關機只需要按住電源鍵一會兒就會出現關機選項，點選【關閉電源】，等待關機之後在長按電源鍵即可實現重啟操作。方法二：手機當機的情況下，長按住【電源鍵】15秒左右，直到黑屏，可以強制關機重開機。方法三：如果有更嚴重的死機狀況，按照上面的方法又行不通的話，那我們只能等待自己的魅族手機沒電

解決jQuery無法取得表單元素值的方法 Feb 19, 2024 pm 02:01 PM

解決jQuery.val()無法使用的問題，需要具體程式碼範例對於前端開發者，使用jQuery是常見的操作之一。其中，使用.val()方法來取得或設定表單元素的值是非常常見的操作。然而，在一些特定的情況下，可能會出現無法使用.val()方法的問題。本文將介紹一些常見的情況以及解決方案，並提供具體的程式碼範例。問題描述在使用jQuery開發前端頁面時，有時候會碰

Oracle RAC 簡介及核心概念 Mar 07, 2024 am 11:39 AM

OracleRAC（RealApplicationClusters）簡介及核心概念隨著企業資料量的不斷增長和對高可用性、高效能的需求日益突出，資料庫叢集技術變得越來越重要。 OracleRAC（RealApplicationClusters）就是為了解決這個問題而設計的。 OracleRAC是Oracle公司推出的一種高可用性、高效能的叢集資料庫解

See all articles

如何诊断节点重启问题

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題