ハードウェア障害などが発生した場合の対処フローを以下に示します。
図10.3 対処フロー図(レプリケーション中の障害の場合)
参照先1: 10.4.2.1 複製ボリュームにハードウェア障害が発生した場合の対処方法
参照先2: 9.8 Storage Clusterコンティニュアスコピー機能を復旧する場合
参照先3: 10.4.2.2 複写元ボリュームに不良セクタが発生した場合の対処方法
参照先4: 10.4.2.3 複製先ボリュームに物理容量不足が発生した場合の対処方法
参照先5: 10.4.2.4 リモートコピー処理で異常(halt)が発生した場合の対処方法
注意
「Status欄」と「障害発生箇所」の詳細は、「10.4.1 概要」を参照してください。
Status欄が"?????"の場合は、ETERNUS Web GUIでコピー処理がエラーサスペンド状態("failed")またはハードウェアサスペンド状態("halt")になっていないか確認してください。
コピー処理がこれらの状態になっている場合は、上記の対処フローに従って対処してください。
それ以外の場合は、以下を確認して対処してください。
デバイスにアクセスできない場合
デバイスが存在するか確認してください。
管理対象サーバ、スイッチなどが異常の場合
当社技術員(SE)に連絡してください。
エラーコードは、以下の2通りの方法で確認できます。
swsrpstatコマンドで確認する
swsrpstatコマンドに-Oオプションを指定して実行します。
ETERNUS Web GUIで確認する
[状態表示]メニューで、状態表示の[アドバンスト・コピー状態表示]をクリックします。
「セッション状態」で、該当コピー種別の「稼働セッション数」リンクをクリックします。
該当コピー処理の「Error Code」欄の値を参照します。
エラーコードの意味は以下のとおりです。
エラーコード | 意味 |
---|---|
0xB2 | PrimaryストレージとSecondaryストレージのStorage Clusterコンティニュアスコピーセッションが同期できないため、アドバンスト・コピーを継続できませんでした。 |
0xBA | 以下のa)またはb)のときに、複写元ボリュームに不良セクタが作成された。
(注) |
0x1E、 | 複製先ボリュームに物理容量不足が発生した。 |
上記以外 | 上記以外のエラーが発生した。 |
複製ボリュームにハードウェア障害が発生した場合は、以下の手順で復旧してください。
Storage Clusterコンティニュアスコピー機能を利用している場合は、「9.7.1 ハードウェア障害の復旧」を参照してください。
swsrpcancelコマンドで、異常が発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできないときは、非操作サーバからキャンセルしてください。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルしてください。
swsrprecoverresコマンドを実行します。
swsrpstatコマンドを実行して、ほかに異常が発生していないことを確認します。
swsrpdelvolコマンドを実行して、異常が発生している複製ボリュームを削除します。
swsrpsetvolコマンドを実行して、新しい複製ボリュームを登録します。異常が発生していた複製ボリュームを修復して再利用する場合は、運用管理サーバでstgxfwcmsetdevコマンドを実行してから、swsrpsetvolコマンドを実行してください。
エラーとなった処理を再実行します。
複写元ボリュームに不良セクタが発生した場合は、以下の手順で複写元ボリュームを復旧してください。
Storage Clusterコンティニュアスコピー機能を利用している場合は、「9.7.1 ハードウェア障害の復旧」を参照してください。
swsrpcancelコマンドで、異常が発生している処理をキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできないときは、非操作サーバからキャンセルしてください。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルしてください。
swsrpstatコマンドを実行して、ほかに異常が発生していないことを確認します。
不良セクタ領域は、その領域を上書きすることで復旧します。複製元ボリュームの用途/使用状況に応じて、以下の復旧方法から適切な方法を選択して復旧してください。
復旧方法1
上位ソフト(ファイルシステム、DBMSなど)から再構築できる領域の場合は、再構築する。
復旧方法2
不良セクタ領域が未使用領域やテンポラリ領域のような使用されていない領域の場合は、システムコマンド(例えば、UNIXのddコマンド、Windowsのformatコマンド)で書き込む。
復旧方法3
swsrpmakeコマンドを実行して、複製先ボリュームからデータを復旧する。
なお、不良セクタが発生したコピー処理の複製先ボリュームからの復旧も可能です。
以下の手順で、複製先ボリュームを復旧してください。
swsrpcancelコマンドで、異常が発生しているセッションをキャンセルします。
サーバ間レプリケーションを行っていた場合で、操作サーバからキャンセルできないときは、非操作サーバからキャンセルしてください。
コマンドでキャンセルできない場合は、ETERNUS Web GUIを使用してキャンセルしてください。
複製先ボリュームの状態を確認して、複製先ボリュームを初期化します。
複製先ボリュームがTPVの場合
Storage CruiserまたはETERNUS Web GUIを使用して複製先ボリュームの状態を確認し、複製先ボリュームを初期化してください。
Storage Cruiserを利用する場合の作業手順は、『ETERNUS SF Webコンソール説明書』の「ボリュームの表示」および「ボリュームの予約削除/強制削除/フォーマット」を参照してください。
複製先ボリュームがFTVの場合
Storage CruiserまたはETERNUS Web GUIを使用して複製先ボリュームの状態を確認し、複製先ボリュームを初期化してください。
Storage Cruiserを利用する場合の作業手順は、『ETERNUS SF Webコンソール説明書』の「FTVの表示」および「FTVのフォーマット」を参照してください。
複製先ボリュームがSDVの場合
Storage Cruiser、swstsdvコマンド、またはETERNUS Web GUIを使用して複製先ボリュームの状態を確認し、複製先ボリュームを初期化してください。
Storage Cruiserを利用する場合の作業手順は、『ETERNUS SF Webコンソール説明書』の「ボリュームの表示」および「ボリュームの予約削除/強制削除/フォーマット」を参照してください。
swstsdvコマンドを利用する場合の作業手順は、以下のとおりです。
"stat"サブコマンドを指定してコマンドを実行し、SDVの状態を確認します。
"init"サブコマンドを指定してコマンドを実行し、SDVを初期化します。
複製先ボリュームのパーティション(スライス)を再作成します。
複製先ボリュームに物理容量不足が発生した原因は、以下のどちらかが考えられます。
複製先ボリュームに必要な物理容量の見積りが適切でない
複製先ボリュームに必要な物理容量の見積りは適切だが、コピーセッションが存在しない状態で複製先ボリュームに大量の更新を行ったため、複製先ボリュームの物理容量が無駄に消費されている
上記のaに該当する場合は、複製先ボリュームに必要な物理容量を再見積りして、ディスク増設を検討してください。
複製先ボリュームがTPVの場合
Storage CruiserまたはETERNUS Web GUIを使用してシン・プロビジョニングプールの状態を確認し、シン・プロビジョニングプールの容量を拡張してください。
Storage Cruiserを利用する場合の作業手順は、『ETERNUS SF Webコンソール説明書』の「シン・プロビジョニングプールの表示」および「シン・プロビジョニングプールの容量拡張/フォーマット/閾値変更/削除」を参照してください。
複製先ボリュームがFTVの場合
Storage CruiserまたはETERNUS Web GUIを使用してTierプールの状態を確認し、Tierプールのサブプール容量を拡張してください。
Storage Cruiserを利用する場合の作業手順は、『ETERNUS SF Webコンソール説明書』の「Tierプールの表示」および「Tierプールのサブプール容量拡張」を参照してください。
複製先ボリュームがSDVの場合
swstsdvコマンドまたはETERNUS Web GUIを使用してSDPの状態を確認し、SDPの容量を拡張してください。
SDPはSDPV(Snap Data Pool Volume)という専用のボリュームを作成することで有効となり、作成したSDPVは自動的にSDPに組み込まれます。SDPの容量は、複製先ボリュームに割り当てる物理容量のSDPVを作成することで拡張します。
swstsdvコマンドを利用する場合の作業手順は、以下のとおりです。
"poolstat"サブコマンドを指定してコマンドを実行し、SDPの状態を確認します。
ETERNUS Web GUIからSDPVを作成します。
haltの状態によって、RECを再開(Resume)する方法が異なります。swsrpstatコマンドに-Hオプションを指定して実行し、haltの状態を確認してから、それぞれの対処を実施してください。
"halt(use-disk-buffer)"または"halt(use-buffer)"の場合
パス閉塞(halt)が原因でデータを転送できないため、REC DiskバッファーまたはRECバッファーへデータを退避している状態です。
RECを再開するには、REC DiskバッファーまたはRECバッファーが不足する前に回線を復旧してください。
復旧後、ETERNUS ディスクアレイが自動的にRECを再開します。
REC DiskバッファーまたはRECバッファーが不足した場合は、以下の["halt(sync)"または"halt(equivalent)"の場合]になります。それぞれの対処を実施してください。
"halt(sync)"または"halt(equivalent)"の場合
パス閉塞(halt)が原因で、データの転送処理が中断されている状態です。
RECのRecoveryモードによって、RECを再開する方法が異なります。
[Automatic Recoveryモードの場合]
全パス閉塞(halt)の原因を取り除きます。
ETERNUS ディスクアレイが自動的にRECを再開(Resume)します。
[Manual Recoveryモードの場合]
全パス閉塞(halt)の原因を取り除きます。
swsrpmakeコマンドを実行して、halt状態のRECを強制サスペンドします。
[ボリューム単位の場合] swsrpmake -j <複写元ボリューム名> <複写先ボリューム名> [グループ単位の場合] swsrpmake -j -Xgroup <グループ名> |
swsrpstartsyncコマンドを実行して、RECを再開(Resume)します(強制サスペンド後にRECを再開する場合は-tオプションの指定が必要です)。
[ボリューム単位の場合] swsrpstartsync -t <複写元ボリューム名> <複写先ボリューム名> [グループ単位の場合] swsrpstartsync -t -Xgroup <グループ名> |