PRIMECLUSTERシステムの運用時の注意点について説明します。
RMSの起動中にRMSの停止を行わないでください
RMSがノード間で実行するハートビートが途切れ、RMSの停止を行ったノードが強制停止する場合があります。
RMSの停止はRMSの起動処理が完了(クラスタアプリケーションの状態遷移完了)後に実行してください。
すべてのノードのRMSを同時に停止するにはhvshut -aを使用してください
すべてのノードで同時にhvshut -lを実行した場合、RMSの停止が行われずhvshutコマンドがタイムアウト、またはハングする場合があります。
すべてのノードのRMSを停止する場合は、hvshut -aをクラスタシステムを構成する任意の1ノードで実行してください。
1ノードごとにRMSを停止する場合は、RMSを停止するノードでhvshut -lを実行してください。
誤って、すべてのノードで同時にhvshut -lを実行し、hvshutコマンドがタイムアウトした場合は、すべてのノードを停止または再起動してください。また、hvshutコマンドがハングした場合は、hvshut -fコマンドでRMSを強制停止した後、すべてのノードを停止または再起動してください。
RMS停止後、OSサービスの停止は行わないでください
hvshutを使用してRMSを停止しても他のPRIMECLUSTER サービス(CF、SF、CRMなど)は動作しています。
このため、RMS停止後にOS情報(ネットワーク情報など)の修正のためにOSサービスを停止/再起動すると、CF によるハートビートが失敗し予期しない切替えが発生します。
OS 情報を修正する場合は、PRIMECLUSTERのすべてのサービスを停止(CFのアンロード)した後、あるいはシングルユーザモードで行ってください。
RMSを起動する前に、RMSで使用するクラスタアプリケーションを作成してください
クラスタアプリケーションを作成しない状態でRMSを起動すると、(CML,14)のメッセージを出力し、RMSの起動に失敗します。
クラスタアプリケーションの概要と作成方法については、“第6章 クラスタアプリケーションの構築”を参照してください。
クラスタを構成するノードでOSハングやスローダウンが発生した場合、正常なノードが強制停止されることがあります
クラスタを構成するノードでシステム負荷などの影響により、OSハングやスローダウンが発生した場合、CFまたはRMSがLEFTCLUSTERを検出して、シャットダウン機構がノードを強制停止します。
このとき、シャットダウン機構は生存優先度に従ってノードを強制停止するため、正常ノードが故障ノードを強制停止する前に、故障ノードのOSハングやスローダウンが解消された場合、正常ノードが先に強制停止されることがあります。
SANブート/iSCSIブート構成で全パス故障が発生した場合など、ディスク装置のシステムボリュームを参照できなくなった場合、システムの状況により、PRIMECLUSTERの異常検出機能が動作できなくなることがあります
システムボリュームを参照できないノードは動作が不定のため、以下の方法でノードをパニックさせてください。
sdtoolコマンドを使用して、該当ノードを停止させてください。
# sdtool -k <該当ノード>
参照
sdtoolコマンドの詳細は、“PRIMECLUSTER 活用ガイド <コマンドリファレンス編>”のsdtool(1M)を参照してください。
以下のいずれかの操作を行い、手動でノードをパニックさせてください。
<Alt>+<SysRq>+<C>キーを押す。
NMIボタンを押す。
詳細については、“Linux ユーザーズマニュアル”を参照してください。
RMSの環境変数HV_RCSTARTに0を設定している場合、ノード停止前にhvshutを実行しRMSを停止してください
環境変数HV_RCSTARTに0を設定した場合、ノード停止時にRMSの停止処理が呼び出されません。
このため、クラスタアプリケーションの停止処理が実行されません。
クラスタアプリケーションを手動で起動する場合や、リソース故障のメッセージが確認された場合は、MONITORONLY属性を設定したリソースが故障状態のままになっていないか、確認してください
MONITORONLY属性を設定したリソースの故障状態を解消せずにクラスタアプリケーションの起動や切り替えを行った場合、クラスタの整合性が失われたり、データ破壊が発生する可能性があります。
Firewallを設定し、かつ、Firewallでstateモジュールを使用している場合、PRIMECLUSTER運用中にiptablesサービスまたはip6tablesサービスを再起動しないでください。
Firewallでstateモジュールを使用している場合、iptablesサービスまたはip6tablesサービスを再起動すると、通信状態の情報が初期化され、それ以降の通信が正常にできなくなることがあります。アプリケーションだけでなく、PRIMECLUSTERも正常に動作できなくなりますので、Firewallの設定を変更する場合は、iptablesサービスまたはip6tablesサービスではなく、クラスタノードを再起動してください。