■概要
ServerViewでは、リカバリ機能を使用することによって、ファン、温度センサ、電源のハードウェア監視およびウォッチドッグによるOSの監視ができ、それぞれの監視対象に対して、異常時に実行されるアクションを設定できます。
異常時に実行されるアクションとして「ただちにサーバをシャットダウンする」等を設定することで、監視対象に対して異常を検出した場合に、異常ノードであるサーバがシャットダウンされます。
この時、PRIMECLUSTERはノード異常が発生したと認識し、異常ノードの業務は待機ノードにフェイルオーバされます。
■リカバリ機能のアクション設定指針
ユーザは、異常時にフェイルオーバを発生させたい監視項目に対して、システムの運用環境および設置環境などを考慮して、適切なアクションを設定する必要があります。
各監視対象に対する推奨アクションは次のとおりです。
監視項目 | 推奨アクション | ||
---|---|---|---|
ファン |
| ||
ファンチェック時間 | 00時00分 (*1) | ||
ファン異常時のアクション | 継続稼動する | ||
温度センサ |
| ||
高温異常時のアクション | ただちにサーバをシャットダウンする | ||
再起動設定 |
| ||
電源投入までの待ち時間(分) | 2 (*2) | ||
再起動リトライ回数 | 3 (*2) | ||
再起動リトライ回数超過時のアクション | 再起動を中止し電源を切断する | ||
ウォッチドッグタイマ監視 | 無効 (*3) | ||
監視有効時 | 監視タイムアウトまでの待ち時間(分) | 3 (*2) | |
アクション | 継続稼動する (*2) | ||
起動監視 | 無効 | ||
監視有効時 | 監視タイムアウトまでの待ち時間(分) | 6 (*2) | |
アクション | 再起動する (*2) |
(*1) 初期値は深夜00時00分に設定されています。システムの運用環境などを考慮して決定してください。
(*2) 初期値を推奨します。機種によって、初期値が異なる場合があります。
(*3) PRIMECLUSTERでは、OSがハング状態であってもクラスタインタコネクトの通信が正常に行われている場合、フェイルオーバは発生しません。
このような状態は、ウォッチドッグタイマ監視を有効にすることで回避することができます。
上記以外のハードに関しては、リカバリ機能では監視のみが可能で、アクションの設定項目は存在しません。
リカバリ機能のアクション設定については、“ServerView ユーザーズガイド”を参照してください。