ページの先頭行へ戻る
PRIMECLUSTER  導入運用手引書 4.7

7.5 運用時の注意点

PRIMECLUSTERシステムの運用時の注意点について説明します。

RMSの起動中にRMSの停止を行わないでください

RMSがノード間で実行するハートビートが途切れ、RMSの停止を行ったノードが強制停止する場合があります。

RMSの停止はRMSの起動処理が完了(クラスタアプリケーションの状態遷移完了)後に実行してください。

すべてのノードのRMSを同時に停止するにはhvshut -aを使用してください

すべてのノードで同時にhvshut -lを実行した場合、RMSの停止が行われずhvshutコマンドがタイムアウト、またはハングする場合があります。
すべてのノードのRMSを停止する場合は、hvshut -aをクラスタシステムを構成する任意の1ノードで実行してください。
1ノードごとにRMSを停止する場合は、RMSを停止するノードでhvshut -lを実行してください。

誤って、すべてのノードで同時にhvshut -lを実行し、hvshutコマンドがタイムアウトした場合は、すべてのノードを停止または再起動してください。また、hvshutコマンドがハングした場合は、hvshut -fコマンドでRMSを強制停止した後、すべてのノードを停止または再起動してください。

RMS停止後、OSサービスの停止は行わないでください

hvshutを使用してRMSを停止しても他のPRIMECLUSTER サービス(CF、SF、CRMなど)は動作しています。

このため、RMS停止後にOS情報(ネットワーク情報など)の修正のためにOSサービスを停止/再起動すると、CF によるハートビートが失敗し予期しない切替えが発生します。

OS 情報を修正する場合は、PRIMECLUSTERのすべてのサービスを停止(CFのアンロード)した後、あるいはシングルユーザモードで行ってください。

RMSを起動する前に、RMSで使用するクラスタアプリケーションを作成してください

クラスタアプリケーションを作成しない状態でRMSを起動すると、(CML,14)のメッセージを出力し、RMSの起動に失敗します。

クラスタアプリケーションの概要と作成方法については、“第6章 クラスタアプリケーションの構築”を参照してください。

クラスタを構成するノードでOSハングやスローダウンが発生した場合、正常なノードが強制停止されることがあります

クラスタを構成するノードでシステム負荷などの影響により、OSハングやスローダウンが発生した場合、CFまたはRMSがLEFTCLUSTERを検出して、シャットダウン機構がノードを強制停止します。

このとき、シャットダウン機構は生存優先度に従ってノードを強制停止するため、正常ノードが故障ノードを強制停止する前に、故障ノードのOSハングやスローダウンが解消された場合、正常ノードが先に強制停止されることがあります。

SANブート/iSCSIブート構成で全パス故障が発生した場合など、ディスク装置のシステムボリューム参照できなくなった場合、システムの状況により、PRIMECLUSTERの異常検出機能が動作できなくなることがあります

システムボリュームを参照できないノードは動作が不定のため、以下の方法でノードをパニックさせてください。

該当ノード以外のクラスタノードにログインできる場合

sdtoolコマンドを使用して、該当ノードを停止させてください。

# sdtool -k <該当ノード>

参照

sdtoolコマンドの詳細は、“PRIMECLUSTER 活用ガイド <コマンドリファレンス編>”のsdtool(1M)を参照してください。

いずれのノードにもログインできない場合

以下のいずれかの操作を行い、手動でノードをパニックさせてください。

  • システムコンソールで、<Alt>+<SysRq>+<C>キーを押す。

  • NMIボタンを押す。

詳細については、“Linux ユーザーズマニュアル”を参照してください。

クラスタアプリケーションを手動で起動する場合や、リソース故障のメッセージが確認された場合は、MONITORONLY属性を設定したリソースが故障状態のままになっていないか、確認してください

MONITORONLY属性を設定したリソースの故障状態を解消せずにクラスタアプリケーションの起動や切替えを行った場合、クラスタの整合性が失われたり、データ破壊が発生する可能性があります。

Firewallを設定し、かつ、Firewallでstateモジュールを使用している場合、PRIMECLUSTER運用中にiptablesサービスip6tablesサービスまたはnftablesサービスを再起動しないでください

Firewallでstateモジュールを使用している場合、iptablesサービス、ip6tablesサービスまたはnftablesサービスを再起動すると、通信状態の情報が初期化され、それ以降の通信が正常にできなくなることがあります。アプリケーションだけでなく、PRIMECLUSTERも正常に動作できなくなりますので、Firewallの設定を変更する場合は、以下のいずれかを行ってください。

システム起動時、コンソールとsyslogにエラーメッセージが出力される場合があります

システム起動時、コンソールとsyslogに以下のメッセージが出力される場合がありますが、動作に影響はありません。

kernel: Request for unknown module key 'FUJITSU Software: Fujitsu BIOS DB FJMW Certificate: 40桁の16進数' err -11
kernel: Disabling lock debugging due to kernel taint
kernel: clonltrc: loading out-of-tree module taints kernel.
kernel: clonltrc: module license 'Proprietary' taints kernel.
kernel: clonltrc: module verification failed: signature and/or required key missing - tainting kernel
kernel: sfdsk_lib: module verification failed: signature and/or required key missing - tainting kernel
kernel: sha: module license 'Proprietary' taints kernel.
kernel: sha: module verification failed: signature and/or required key missing - tainting kernel
kernel: symsrv: module license 'Proprietary' taints kernel.
kernel: symsrv: applying kernel_stack fix up
kernel: symsrv: module verification failed: signature and/or required key missing - tainting kernel
kernel: cf: applying kernel_stack fix up
kernel: poffinhibit_ipdv: module verification failed: signature and/or required key missing - tainting kernel