PRIMECLUSTERシステムの運用時の注意点について説明します。
RMSの起動中にRMSの停止を行わないでください
RMSがノード間で実行するハートビートが途切れ、RMSの停止を行ったノードが強制停止する場合があります。
RMSの停止はRMSの起動処理が完了(クラスタアプリケーションの状態遷移完了)後に実行してください。
すべてのノードのRMSを同時に停止するにはhvshut -aを使用してください
すべてのノードで同時にhvshut -lを実行した場合、RMSの停止が行われずhvshutコマンドがタイムアウト、またはハングする場合があります。
すべてのノードのRMSを停止する場合は、hvshut -aをクラスタシステムを構成する任意の1ノードで実行してください。
1ノードごとにRMSを停止する場合は、RMSを停止するノードでhvshut -lを実行してください。
誤って、すべてのノードで同時にhvshut -lを実行し、hvshutコマンドがタイムアウトした場合は、すべてのノードを停止または再起動してください。また、hvshutコマンドがハングした場合は、hvshut -fコマンドでRMSを強制停止した後、すべてのノードを停止または再起動してください。
RMS停止後、OSサービスの停止は行わないでください
hvshutを使用してRMSを停止しても他のPRIMECLUSTER サービス(CF、SF、CRMなど)は動作しています。
このため、RMS停止後にOS情報(ネットワーク情報など)の修正のためにOSサービスを停止/再起動すると、CF によるハートビートが失敗し予期しない切替えが発生します。
OS 情報を修正する場合は、PRIMECLUSTERのすべてのサービスを停止(CFのアンロード)した後、あるいはシングルユーザモードで行ってください。
RMSを起動する前に、RMSで使用するクラスタアプリケーションを作成してください
クラスタアプリケーションを作成しない状態でRMSを起動すると、(CML,14)のメッセージを出力し、RMSの起動に失敗します。
クラスタアプリケーションの概要と作成方法については、“第6章 クラスタアプリケーションの構築”を参照してください。
クラスタを構成するノードでOSハングやスローダウンが発生した場合、正常なノードが強制停止されることがあります
クラスタを構成するノードでシステム負荷などの影響により、OSハングやスローダウンが発生した場合、CFまたはRMSがLEFTCLUSTERを検出して、シャットダウン機構がノードを強制停止します。
このとき、シャットダウン機構は生存優先度に従ってノードを強制停止するため、正常ノードが故障ノードを強制停止する前に、故障ノードのOSハングやスローダウンが解消された場合、正常ノードが先に強制停止されることがあります。
SANブート/iSCSIブート構成で全パス故障が発生した場合など、ディスク装置のシステムボリュームを参照できなくなった場合、システムの状況により、PRIMECLUSTERの異常検出機能が動作できなくなることがあります
システムボリュームを参照できないノードは動作が不定のため、以下の方法でノードをパニックさせてください。
sdtoolコマンドを使用して、該当ノードを停止させてください。
# sdtool -k <該当ノード>
参照
sdtoolコマンドの詳細は、“PRIMECLUSTER 活用ガイド <コマンドリファレンス編>”のsdtool(1M)を参照してください。
以下のいずれかの操作を行い、手動でノードをパニックさせてください。
システムコンソールで、<Alt>+<SysRq>+<C>キーを押す。
NMIボタンを押す。
詳細については、“Linux ユーザーズマニュアル”を参照してください。
クラスタアプリケーションを手動で起動する場合や、リソース故障のメッセージが確認された場合は、MONITORONLY属性を設定したリソースが故障状態のままになっていないか、確認してください
MONITORONLY属性を設定したリソースの故障状態を解消せずにクラスタアプリケーションの起動や切替えを行った場合、クラスタの整合性が失われたり、データ破壊が発生する可能性があります。
Firewallを設定し、かつ、Firewallでstateモジュールを使用している場合、PRIMECLUSTER運用中にiptablesサービスまたはip6tablesサービスを再起動しないでください
Firewallでstateモジュールを使用している場合、iptablesサービスまたはip6tablesサービスを再起動すると、通信状態の情報が初期化され、それ以降の通信が正常にできなくなることがあります。アプリケーションだけでなく、PRIMECLUSTERも正常に動作できなくなりますので、Firewallの設定を変更する場合は、以下のいずれかを行ってください。
クラスタノードの再起動
iptables-restore または ip6tables-restore による反映
RHEL6環境でシステム起動時、コンソールとsyslogにエラーメッセージが出力される場合があります
RHEL6環境でシステム起動時、コンソールとsyslogに以下のメッセージが出力される場合がありますが、動作に影響はありません。
kernel: Disabling lock debugging due to kernel taint kernel: clonltrc: module license 'Proprietary' taints kernel. kernel: symsrv: module license 'Proprietary' taints kernel. kernel: symsrv: applying 16k kernel stack fix up kernel: cf: module license 'Proprietary' taints kernel. kernel: cf: applying 16k kernel stack fix up kernel: sha: module license 'Proprietary' taints kernel.
RHEL7環境でシステム起動時、コンソールとSyslogにエラーメッセージが出力される場合があります
RHEL7環境でシステム起動時、コンソールとSyslogに以下のメッセージが出力される場合がありますが、動作に影響はありません。
kernel: Request for unknown module key 'FUJITSU Software: Fujitsu BIOS DB FJMW Certificate: 40桁の16進数' err -11
kernel: Disabling lock debugging due to kernel taint
kernel: clonltrc: module license 'Proprietary' taints kernel.
kernel: clonltrc: module verification failed: signature and/or required key missing - tainting kernel
kernel: sfdsk_lib: module verification failed: signature and/or required key missing - tainting kernel
kernel: sha: module license 'Proprietary' taints kernel.
kernel: sha: module verification failed: signature and/or required key missing - tainting kernel
kernel: symsrv: module license 'Proprietary' taints kernel.
kernel: symsrv: applying kernel_stack fix up
kernel: symsrv: module verification failed: signature and/or required key missing - tainting kernel
kernel: cf: applying kernel_stack fix up
kernel: poffinhibit_ipdv: module verification failed: signature and/or required key missing - tainting kernel