クラスタインタコネクトが故障したり、ノードがパニックすると、以下の現象が発生します。
一方のノードが LEFTCLUSTER 状態になる。かつ、
ネットミラーボリュームを構成するスライスで I/O エラーが発生する。
このとき、ノードの LEFTCLUSTER 状態が解消されるまで、以下の状態になります。
アプリケーションからネットミラーボリュームへの I/O は継続できます。
ただし、等価性 (回復) コピー中の場合、コピー処理中の領域への I/O は保留され、かつ、コピー処理が進行しません。
I/O エラーが発生したスライスは、以下の状態になります。
INVALID 状態にならず、ACTIVE、STOP、または COPY 状態のままです。
先行切離し状態 (pre-detached) になります。
先行切離し状態とは、警告メッセージ 22023 (WARNING: sfdsk: slice is pre-detached by an I/O error: ...) が出力された後、どのノードでもメッセージ 44005 (WARNING: object.volume: detached status slice by an I/O error, class=class) が出力されていない状態です。
先行切離し状態は、sdxinfo コマンドや GDS 運用管理ビューでは確認できません。
アプリケーションからネットミラーボリュームへの I/O は、I/O エラーが発生したスライスには発行されず、もう一方のスライスのみに発行されます。
このため、I/O エラーが発生したスライスには最新データが格納されません。
LEFTCLUSTER 状態が解消されると、I/O エラーが発生したスライスは切り離されて INVALID 状態になります。また、等価性(回復)コピー中の場合、コピー先のスライスが切り離された後、保留されていた I/O が復帰します。
LEFTCLUSTER 状態は、自動的に解消される場合と、自動的には解消されない場合があります。
LEFTCLUSTER 状態が自動的に解消される場合
PRIMECLUSTER のシャットダウン機構 (SF) によって LEFTCLUSTER 状態が自動的に解消される場合、異常が発生してからスライスが切り離されるまでの時間の最大値は、以下のとおりです。
[スライス切離しまでの時間の最大値 (デフォルト) ]
PRIMERGY の場合、120 秒
PRIMEQUEST 4000シリーズの場合、140 秒
PRIMEQUEST 3000シリーズの場合、140 秒
KVM ゲストの場合、160 秒
VMware ゲストの場合、110秒
FJcloud-O 環境の場合、270 秒
AWS 環境の場合、50秒
Azure 環境の場合、110秒
FJcloud-V 環境の場合、70秒
RHOSP 環境の場合、270秒
下記の [PRIMECLUSTERのタイムアウト値] をデフォルト値から変更した場合、異常が発生してからスライスが切り離されるまでの時間の最大値は [スライス切離しまでの時間の最大値] で算出できます。
[PRIMECLUSTERのタイムアウト値]
CFのハートビートのタイムアウト検出時間 (CLUSTER_TIMEOUT)
シャットダウン機構のタイムアウト値
[スライス切離しまでの時間の最大値]
<スライス切離しまでの時間の最大値 (デフォルト) >
+ <CLUSTER_TIMEOUTの値からデフォルト値を引いた値>
+ <ノード数> × <シャットダウン機構のタイムアウト値からデフォルト値を引いた値>
「シャットダウン機構のタイムアウト値」は、すべてのシャットダウンエージェントのタイムアウト値を足し合わせた値です。
LEFTCLUSTER 状態 が自動的に解消されない場合
PRIMECLUSTER のシャットダウン機構 (SF) によるノード停止が失敗して、LEFTCLUSTER 状態が自動的に解消されず、I/O エラーが発生したスライスは切り離されません。
この場合、手動で LEFTCLUSTER 状態を回復する必要があります。
LEFTCLUSTER 状態の回復方法については、「7.16.4 LEFTCLUSTER 状態からの復旧」を参照してください。