13.4.2 対処方法

ハードウェア障害などが発生した場合の対処フローを以下に示します。

図13.3 対処フロー図(レプリケーション中の障害の場合)

参照先1: 13.4.2.1 複製ボリュームにハードウェア障害が発生した場合の対処方法
参照先2: 12.12 Storage Clusterコンティニュアスコピー機能を復旧する場合
参照先3: 13.4.2.2 複写元ボリュームに不良セクタが発生した場合の対処方法
参照先4: 13.4.2.3 Snap Data VolumeまたはSnap Data Poolの容量不足が発生した場合の対処方法
参照先5: 13.4.2.4 リモートコピー処理で異常(halt)が発生した場合の対処方法

注意

「Status欄」と「障害発生箇所」の詳細は、「13.4.1 概要」を参照してください。
Status欄が"?????"の場合は、ETERNUS Web GUIでコピー処理がエラーサスペンド状態("failed")またはハードウェアサスペンド状態("halt")になっていないか確認してください。
コピー処理がこれらの状態になっている場合は、上記の対処フローに従って対処してください。
それ以外の場合は、以下を確認して対処してください。
- デバイス情報が異常な場合
  デバイス情報を復元してください。
- デバイスにアクセスできない場合
  デバイスが存在するか確認してください。
- ボリュームとAdvancedCopy Managerのサービスの間に依存関係が設定されていない場合
  依存関係を設定してください。詳細は、「15.1.5 クラスタ運用時の注意事項」を参照してください。
- 管理対象サーバ、スイッチなどが異常の場合
  当社技術員(SE)に連絡してください。

エラーコードは、以下の2通りの方法で確認できます。

swsrpstatコマンドで確認する
swsrpstatコマンドに-Oオプションを指定して実行します。
ETERNUS Web GUIで確認する
1. [状態表示]メニューで、状態表示の[アドバンスト・コピー状態表示]をクリックします。
2. 「セッション状態」で、該当コピー種別の「稼働セッション数」リンクをクリックします。
3. 該当コピー処理の「Error Code」欄の値を参照します。

エラーコードの意味は以下のとおりです。

表13.8 エラーコードの意味
エラーコード	意味
0xB2	PrimaryストレージとSecondaryストレージのStorage Clusterコンティニュアスコピーセッションが同期できないため、アドバンスト・コピーを継続できませんでした。
0xBA	以下のa)またはb)のときに、複写元ボリュームに不良セクタが作成された。 QuickOPCが物理コピー未実施、かつトラッキング処理中である EC/RECがサスペンド状態(複製確立状態)である (注) a)またはb)のときに複写元ボリュームに不良セクタが作成された場合、ETERNUS ディスクアレイが自動的にコピー処理をエラーサスペンド状態に遷移させます。これによりQuickOPCの再起動またはEC/RECのResumeを抑止し、複写先ボリュームが不当な複写元ボリュームのデータで上書きされることを防止します。
0xBB	Snap Data VolumeまたはSnap Data Poolの容量不足が発生した。
上記以外	上記以外のエラーが発生した。

13.4.2.1 複製ボリュームにハードウェア障害が発生した場合の対処方法

複製ボリュームにハードウェア障害が発生した場合、以下の手順で復旧作業を行ってください。
Storage Clusterコンティニュアスコピー機能を利用している場合は、「12.11.1 ハードウェア障害の復旧」を参照してください。

swsrpcancelコマンドで異常の発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできない場合は、非操作サーバからキャンセルします。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルしてください。
swsrprecoverresコマンドを実行します。
swsrpstatコマンドを実行して、他に異常が発生していないことを確認します。
swsrpdelvolコマンドを実行して、異常の発生している複製ボリュームを削除します。
swsrpsetvolコマンドを実行して、新しい複製ボリュームを登録します。異常の発生していた複製ボリュームを修復して再利用する場合は、運用管理サーバでstgxfwcmsetdevコマンドを実行してから、swsrpsetvolコマンドを実行してください。
エラーとなった処理を再実行します。

13.4.2.2 複写元ボリュームに不良セクタが発生した場合の対処方法

複写元ボリュームに不良セクタが発生した場合、以下の手順で複写元ボリュームの復旧作業を行ってください。
Storage Clusterコンティニュアスコピー機能を利用している場合は、「12.11.1 ハードウェア障害の復旧」を参照してください。

swsrpcancelコマンドで異常の発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできない場合は、非操作サーバからキャンセルします。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルしてください。
swsrpstatコマンドを実行して、他に異常が発生していないことを確認します。
不良セクタ領域は、その領域を上書きすることで復旧します。複製元ボリュームの用途/使用状況に応じて、以下の復旧方法から適切な方法を選択して復旧してください。
- 復旧方法1
  上位ソフト(ファイルシステム、DBMSなど)から再構築できる領域の場合は、再構築する。
- 復旧方法2
  不良セクタ領域が未使用領域やテンポラリ領域のような使用されていない領域の場合は、システムコマンド(例えば、UNIXのddコマンド、Windowsのformatコマンド)で書き込む。
- 復旧方法3
  swsrpmakeコマンドを実行して、複製先ボリュームからデータを復旧する。
  なお、不良セクタが発生したコピー処理の複製先ボリュームからの復旧も可能です。

13.4.2.3 Snap Data VolumeまたはSnap Data Poolの容量不足が発生した場合の対処方法

Snap Data Volumeの容量不足はSnap Data Poolを使用していない場合に発生し、Snap Data Poolの容量不足はSnap Data Poolを使用している場合に発生します。

Snap Data VolumeまたはSnap Data Poolの容量不足が発生した場合の復旧方法は、Snap Data Poolの使用状態に応じて、以下を参照してください。

Snap Data Poolを使用していない場合: 「Snap Data Volumeの容量不足の復旧方法」
Snap Data Poolを使用している場合: 「Snap Data Poolの容量不足の復旧方法」

ポイント

Snap Data Poolの使用状況は、swstsdvコマンドのサブコマンドに"poolstat"を指定することで確認できます。

Snap Data Volumeの容量不足の復旧方法

以下に、Snap Data Volumeで容量不足が発生した場合の復旧方法を説明します。

Snap Data Volumeの容量が不足した場合は、swsrpcancelコマンドで異常の発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできないときは、非操作サーバからキャンセルします。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルします。

Snap Data Volumeの容量不足は、以下の原因が考えられます。

Snap Data Volumeの物理容量の見積りが適切でない。
Snap Data Volumeの物理容量の見積りは適切だが、SnapOPC/SnapOPC+セッションが存在しない状態でSnap Data Volumeに大量の更新を行ったため、Snap Data Volumeの物理容量が無駄に消費されている。

Snap Data Volumeの使用状況は、swstsdvコマンドのサブコマンドに"stat"を指定して確認できます。

上記、a.に該当する場合は、Snap Data Volumeの物理容量を再度見積もり、Snap Data Volumeを再作成してください。
上記、b.に該当する場合は、ETERNUS Web GUIを使用するか、swstsdvコマンドのサブコマンドに"init"を指定して、Snap Data Volumeを初期化してください。

Snap Data Volumeを再作成/初期化したあとは、パーティション(スライス)の再作成が必要です。

Snap Data Poolの容量不足の復旧方法

以下に、Snap Data Poolで容量不足が発生した場合の復旧方法を説明します。

Snap Data Poolの容量が不足した場合は、swsrpcancelコマンドで異常の発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできないときは、非操作サーバからキャンセルします。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルします。

Snap Data Poolの容量不足は、以下の原因が考えられます。

Snap Data Poolの容量の見積りが適切でない。
Snap Data Poolの容量の見積りは適切だが、SnapOPC/SnapOPC+セッションが存在しない状態でSnap Data Volumeに大量の更新を行ったため、Snap Data Poolの容量が無駄に消費されている。

Snap Data Poolの使用状況は、swstsdvコマンドのサブコマンドに"poolstat"指定して確認できます。

上記、a.に該当する場合は、Snap Data Poolの容量を再度見積もり、Snap Data Poolの容量を増設したあと、Snap Data Volumeを再作成してください。
上記、b.に該当する場合は、ETERNUS Web GUIを使用するか、swstsdvコマンドのサブコマンドに"init"を指定して、Snap Data Volumeを初期化してください。

Snap Data Volumeを再作成/初期化したあとは、パーティション(スライス)の再作成が必要です。

13.4.2.4 リモートコピー処理で異常(halt)が発生した場合の対処方法

haltの状態によって、RECを再開(Resume)する方法が異なります。swsrpstatコマンドに-Hオプションを指定して実行し、haltの状態を確認してから、それぞれの対処を実施してください。

"halt(use-disk-buffer)"または"halt(use-buffer)"の場合
パス閉塞(halt)が原因でデータを転送できないため、REC DiskバッファーまたはRECバッファーへデータを退避している状態です。
RECを再開するには、REC DiskバッファーまたはRECバッファーが不足する前に回線を復旧してください。
復旧後、ETERNUS ディスクアレイが自動的にRECを再開します。
REC DiskバッファーまたはRECバッファーが不足した場合は、以下の["halt(sync)"または"halt(equivalent)"の場合]になります。それぞれの対処を実施してください。
"halt(sync)"または"halt(equivalent)"の場合
パス閉塞(halt)が原因で、データの転送処理が中断されている状態です。
RECのRecoveryモードによって、RECを再開する方法が異なります。
[Automatic Recoveryモードの場合]
1. 全パス閉塞(halt)の原因を取り除きます。
2. ETERNUS ディスクアレイが自動的にRECを再開(Resume)します。
[Manual Recoveryモードの場合]
1. 全パス閉塞(halt)の原因を取り除きます。
2. swsrpmakeコマンドを実行して、halt状態のRECを強制サスペンドします。
  [ボリューム単位の場合] swsrpmake -j <複写元ボリューム名> <複写先ボリューム名> [グループ単位の場合] swsrpmake -j -Xgroup <グループ名>
3. swsrpstartsyncコマンドを実行して、RECを再開(Resume)します(強制サスペンド後にRECを再開する場合は-tオプションの指定が必要です)。
  [ボリューム単位の場合] swsrpstartsync -t <複写元ボリューム名> <複写先ボリューム名> [グループ単位の場合] swsrpstartsync -t -Xgroup <グループ名>