9.4.2 対処方法

ETERNUS SF AdvancedCopy Manager 運用手引書 13.2 -Linux-

目次索引

第9章運用保守

> 9.4 レプリケーション中に発生したハードウェア障害等の対処方法

9.4.2 対処方法

ハードウェア障害等が発生した場合の対処フローを以下に示します。

[図: 対処フロー図(レプリケーション中の障害の場合)]

「status欄」の詳細については、「概要」を参照してください。

status欄が"?????"の場合は、ETERNUSmgr/GRmgrでコピー処理がエラーサスペンド状態("failed")またはハードウェアサスペンド状態("halt")になっていないか確認してください。コピー処理がこれらの状態になっている場合は上記の対処フローにしたがって対処を行ってください。それ以外の場合は、別の原因(Storageサーバ、スイッチ等)が考えられますので、富士通技術員(SE)に連絡してください。

エラーコードは、ETERNUSmgrで確認してください。エラーコードの確認方法は以下のとおりです。

[状態表示]メニューで、状態表示の[アドバンスト・コピー状態表示]をクリックします。
[セッション状態]で、該当コピー種別の「稼動セッション数」リンクをクリックします。
該当コピー処理の[Error Code]欄の値を参照します。

エラーコードの意味は以下の通りです。

[表: エラーコードの意味]

エラーコード	意味
0xBA	以下のa)またはb)のときに、複写元ボリュームに不良セクタが作成された。 a)QuickOPCが物理コピー未実施かつトラッキング処理中である b)EC/RECがサスペンド状態(複製確立状態)である (注) a)またはb)のときに複写元ボリュームに不良セクタが作成された場合、ディスクアレイ装置が自動的にコピー処理をエラーサスペンド状態に遷移させます。これによりQuickOPCの再起動またはEC/RECのResumeを抑止し、複写先ボリュームが不当な複写元ボリュームのデータで上書きされることを防止します。
0xBB	Snap Data Disk (Snap Data Volume)の使用済み容量が物理容量を超えた。
0xBA、0xBB 以外	上記以外のエラーが発生した。

エラーコード

意味

0xBA

以下のa)またはb)のときに、複写元ボリュームに不良セクタが作成された。

a)QuickOPCが物理コピー未実施かつトラッキング処理中である

b)EC/RECがサスペンド状態(複製確立状態)である

(注)
a)またはb)のときに複写元ボリュームに不良セクタが作成された場合、ディスクアレイ装置が自動的にコピー処理をエラーサスペンド状態に遷移させます。これによりQuickOPCの再起動またはEC/RECのResumeを抑止し、複写先ボリュームが不当な複写元ボリュームのデータで上書きされることを防止します。

0xBB

Snap Data Disk (Snap Data Volume)の使用済み容量が物理容量を超えた。

0xBA、0xBB
以外

上記以外のエラーが発生した。

エラーコード0xBA、0xBBは以下のディスクアレイ装置の場合にのみ返却されます。

ETERNUS4000/ETERNUS8000(ファームウェアバージョンV11L30-0000以降)
ETERNUS6000(ファームウェアバージョンV31L40-0000以降)

上記以外のディスクアレイ装置の場合には、エラーコード0xBA、0xBBが示す事象は以下の方法で判断します。

[表: エラーコードの事象]

事象	判断方法
0xBAが示す事象	本事象が発生することはありません。上記a)またはb)のときに、複写元ボリュームに不良セクタが発生しても、コピー状態は変化しません。
0xBBが示す事象	ETERNUSmgrより、SDVの使用済み容量を確認することにより、物理容量のオーバが発生したか否かを判断してください。 [状態表示] メニューで、状態表示の[Volume一覧]をクリックします。該当ボリュームの「Volume Type」欄のSDVリンクをクリップします。「使用済み容量」欄の値を参照します。本事象に該当する場合は、「Snap Data Disk(Snap Data Volume)の使用量が物理容量を超えた場合の対処方法」を参照してください。

事象

判断方法

0xBAが示す事象

本事象が発生することはありません。

上記a)またはb)のときに、複写元ボリュームに不良セクタが発生しても、コピー状態は変化しません。

0xBBが示す事象

ETERNUSmgrより、SDVの使用済み容量を確認することにより、物理容量のオーバが発生したか否かを判断してください。

[状態表示] メニューで、状態表示の[Volume一覧]をクリックします。
該当ボリュームの「Volume Type」欄のSDVリンクをクリップします。
「使用済み容量」欄の値を参照します。

本事象に該当する場合は、「Snap Data Disk(Snap Data Volume)の使用量が物理容量を超えた場合の対処方法」を参照してください。

9.4.2.1 複製ボリュームにハードウェア障害が発生した場合の対処方法

複製ボリュームにハードウェア障害が発生した場合、以下の手順に従って障害の復旧作業を行ってください。

複製解除コマンド(swsrpcancel)で異常の発生している処理をキャンセルします。サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできない場合は、非操作サーバからキャンセルします。
コマンドによるキャンセルができない場合は、ETERNUSmgr/GRmgrを使用してキャンセルします。
資源整合コマンド(swsrprecoverres)を実行します。
運用状況表示コマンド(swsrpstat)を実行して、他に異常が発生していないことを確認します。
複製ボリューム情報削除コマンド(swsrpdelvol)を使用して、異常の発生している複製ボリュームを削除します。
複製ボリューム情報設定コマンド(swsrpsetvol)を使用して、新しい複製ボリュームを登録します。異常の発生していた複製ボリュームを修復して再度使用する場合は、初期画面から[特定デバイスの情報取得／反映]を実施してから、複製ボリュームに登録しなおしてください。
エラーとなった処理を再実行します。

9.4.2.2 複写元ボリュームに不良セクタが発生した場合の対処方法

複写元ボリュームに不良セクタが発生した場合、複写元ボリュームの復旧は以下の手順で行ってください。

複製解除コマンド(swsrpcancel)で異常の発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできない場合は、非操作サーバからキャンセルします。
コマンドによるキャンセルができない場合は、ETERNUSmgrを使用してキャンセルします。
運用状況表示コマンド(swsrpstat)を実行して、他に異常が発生していないことを確認します。
不良セクタ領域はその領域を上書きすることによって復旧されます。複製元ボリュームの用途／使用状況に応じて、以下の復旧方法から適切な方法を選択して復旧を行ってください。
- 復旧方法1
  
  上位ソフト(ファイルシステム、DBMS等)から再構築できる領域である場合は再構築を行う。
- 復旧方法2
  
  不良セクタ領域が未使用領域やテンポラリ領域のような使用されていない領域である場合は専用ツール(例：UNIXのddコマンド)で書き込みを行う。
- 復旧方法3
  
  複製作成コマンド(swsrpmake)を使用して複製先ボリュームからデータを復旧する(なお、不良セクタが発生したコピー処理の複製先ボリュームからの復旧も可能です)。

9.4.2.3 Snap Data Disk(Snap Data Volume)の使用量が物理容量を超えた場合の対処方法

Snap Data Disk (Snap Data Volume)の使用済み容量が物理容量を超えた場合は、複製解除コマンド(swsrpcancel)で異常の発生している処理をキャンセルします。

サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできない場合は、非操作サーバからキャンセルします。

コマンドによるキャンセルができない場合は、ETERNUSmgrを使用してキャンセルします。異常の発生した処理をキャンセルすることにより、再びSnapOPCが実行可能になります。

Snap Data Diskの物理容量オーバーが発生する原因としては以下が考えられます。

Snap Data Diskの物理容量の見積りが適切でない。
Snap Data Diskの物理容量の見積りは適切だが、SnapOPCセッションが存在しない状態でSnap Data Diskに大量の更新を行ったため、Snap Data Diskの物理容量が無駄に消費されている。

上記、a.に該当する場合は、Snap Data Diskの物理容量を再度見積もり、Snap Data Diskの再作成を行ってください。

上記、b.に該当する場合は、ETERNUSmgrよりSnap Data Diskの初期化を行ってください。

なお、Snap Data Diskの再作成／初期化を行った後は、ディスクパーティション(スライス)の再作成が必要になります。

9.4.2.4 リモートコピー処理で異常(halt)が発生した場合の対処方法

RECのRecoveryモードによって、RECを再開(Resume)する方法が異なります。

[Automatic Recoveryモードの場合]

全パス閉塞(halt)の原因を取り除きます。
ETERNUS ディスクアレイにより自動的にRECが再開(Resume)されます。

[Manual Recoveryモードの場合]

全パス閉塞(halt)の原因を取り除きます。
複製作成コマンド(swsrpmake)を使用してhalt状態のRECを強制サスペンドします。

[ボリューム単位の場合]

swsrpmake -j <複写元ボリューム名> <複写先ボリューム名>

[グループ単位の場合]

swsrpmake -j -Xgroup <グループ名>
複製開始コマンド(swsrpstartsync)を使用してRECを再開(Resume)します(強制サスペンド後のRECを再開する場合は-tオプションの指定が必要です)。

[ボリューム単位の場合]

swsrpstartsync -t <複写元ボリューム名> <複写先ボリューム名>

[グループ単位の場合]

swsrpstartsync -t -Xgroup <グループ名>

目次索引