マスタサーバ(プライマリ)で異常が発生した場合、マスタサーバを導入した環境に応じて以下のとおりマスタサーバ(セカンダリ)へ切替えが発生します。
異常内容 | 導入環境 | ||||
---|---|---|---|---|---|
物理 | 仮想環境 | 仮想環境 | |||
KVM | VMware | KVM | VMware | ||
システムの異常(物理マシン) | ○ | ×(*1) | ×(*1) | ×(*2) | ○ |
システムの異常(仮想マシン) | - | ○ | ○ | ○ | ○ |
業務 LAN ネットワークの異常 | ○ | ○ | ○ | ○ | ○ |
クラスタインタコネクト(CIP)の異常 | △ | △ | △(*2) | △ | △(*2) |
iSCSI ネットワークの異常 | ○ | ○ | ○ | ○ | ○ |
JobTracker の異常 | ○ | ○ | ○ | ○ | ○ |
○:マスタサーバ(セカンダリ)へ切り替わります。
△:マスタサーバ(プライマリ)で業務を継続します(切替えは不要)。
×:マスタサーバ(セカンダリ)へ切り替わりません。
*1:物理マシン(ホストマシン)の異常であるため、マスタサーバ(セカンダリ)に切り替わっても業務は継続できません。
*2:別途、マスタサーバ(セカンダリ)の強制停止が必要です。
注意
マスタサーバ(セカンダリ)で異常が発生した場合は、マスタサーバ(プライマリ)への切替えは発生しません。マスタサーバ(プライマリ)で再度ジョブの実行を行う必要はなく、業務を継続できます。
この場合、システムログなどを参照してマスタサーバ(セカンダリ)で発生した異常の原因を調査し、取り除いてください。マスタサーバ(セカンダリ)の復旧が完了した後、マスタサーバ(セカンダリ)を再起動してください。
マスタサーバ(プライマリ)とマスタサーバ(セカンダリ)を同一ホストマシン上の仮想マシンに導入している場合、ホストマシンで異常が発生した場合は業務が停止します。
この場合、ホストマシンのシステムログなどを参照して異常の原因を取り除いてください。ホストマシンの復旧が完了した後、「8.1 起動」を参照して本製品を導入したシステムを起動し直してください。
参考
仮想環境のホストマシンにシステムの異常が発生した場合、マスタサーバ(セカンダリ)へ切り替わりません(一部を除く)。この動作の詳細については、「PRIMECLUSTER 導入運用手引書 4.3」の「2.2.1 仮想マシン機能」における以下の方式の記事を参照してください。
1つの管理 OS 上のゲスト OS 間でクラスタシステムを構築する場合
管理 OS 異常切替機能を使用せず、複数の管理 OS 上のゲスト OS 間でクラスタシステムを構築する場合
以降、マスタサーバ(プライマリ)で異常が発生した後の対処方法について説明します。
マスタサーバ(プライマリ)で異常が発生した場合、マスタサーバ(セカンダリ)へ切替えが行われたかどうかを確認します。
なお、切替えによって状態遷移が行われるため、異常発生から5分経過した後に確認してください。
「マスタサーバの HA クラスタの状態確認」を参照して、マスタサーバ(セカンダリ)へ切り替わっているかを確認します。
切替えが行われている場合は、マスタサーバ(プライマリ)の状態を確認してください。
マスタサーバ(プライマリ)が「Faulted」状態(または、システムが起動していない場合)
マスタサーバ(プライマリ)が復旧するまでの間、マスタサーバ(セカンダリ)で運用を継続できます。手順「(4) 分析業務の再開(ジョブ再実行)」に進みます。
マスタサーバ(プライマリ)が「Offline」状態
マスタサーバ(プライマリ)へ切り戻せる状態です。手順「(7) 切戻しコマンド or 再起動」に進みます。
切替えが行われていない場合、「マスタサーバ間の通信状態の確認」を参照して、マスタサーバ(プライマリ)とマスタサーバ(セカンダリ)間の通信状態を確認します。
両方のマスタサーバにおいて相手側が「LEFTCLUSTER」状態
クラスタパーティションが発生しています。手順「(2) クラスタパーティションの解消」に進みます。
マスタサーバ(セカンダリ)において相手側が「LEFTCLUSTER」状態
手動でマスタサーバ(セカンダリ)へ切替えを行う必要があります。手順「(3) 手動切替え」に進みます。
マスタサーバ(プライマリ)で業務を継続可能ですが、クラスタパーティションを解消する必要があります。
クラスタインタコネクト(CIP)の故障を取り除きます。
マスタサーバ(セカンダリ)を再起動します。
物理環境または仮想環境(KVM)にマスタサーバを導入している場合:
# shutdown -r now <Enter>
仮想環境(VMware)にマスタサーバを導入している場合(システムを強制停止する必要あり):
# reboot -f <Enter>
「マスタサーバ間の通信状態の確認」を参照して、マスタサーバ(プライマリ)とマスタサーバ(セカンダリ)間の通信状態を確認し、通信状態が回復したこと(両方のマスタサーバにおいていずれも「UP(起動中)」の状態であること)を確認します。
この対処により通常の稼働状態に戻ります(以降の手順は不要)。
マスタサーバ(プライマリ)でシステムの異常が発生しているため、マスタサーバ(セカンダリ)へ切り替える必要があります。
すべてのスレーブサーバ、開発実行環境サーバ、および連携サーバで DFS をアンマウントします。
例
DFS の論理ファイルシステム名が pdfs1 である場合
# umount pdfs1 <Enter>
マスタサーバ(セカンダリ)のシステムを強制停止し、再起動します。
# reboot -f <Enter>
マスタサーバ(セカンダリ)で pdfsfrmd デーモンを強制起動します。
# pdfsfrmstart -f <Enter>
マスタサーバ(セカンダリ)で DFS が "run" 状態であることを確認します。
例
DFS 管理サーバ(MDS)がマスタサーバ(セカンダリ)へ切り替えられた状態:
# pdfsrscinfo -m <Enter> /dev/disk/by-id/scsi-1FUJITSU_300000370106: FSID MDS/AC STATE S-STATE RID-1 RID-2 RID-N hostname 1 MDS(P) stop - 0 0 0 master1 1 AC stop - 0 0 0 master1 1 MDS(S) run - 0 0 0 master2 ← マスタサーバ(セカンダリ)が "run" 状態 1 AC run - 0 0 0 master2
注意
マスタサーバで起動時に DFS のマウントが自動的に行われない設定となっている場合は、手動で DFS のマウントを行ってください。
すべてのスレーブサーバ、開発実行環境サーバ、および連携サーバで DFS をマウントします。
例
DFS の論理ファイルシステム名が pdfs1 である場合
# mount pdfs1 <Enter>
マスタサーバ(セカンダリ)で bdpp_start コマンドを実行し、Hadoop を強制起動します。
# /opt/FJSVbdpp/bin/bdpp_start -f <Enter>
「マスタサーバの HA クラスタの状態確認」を参照して、マスタサーバ(セカンダリ)へ切り替わっているかを確認します。
参照
pdfsfrmstart、pdfsrscinfo の各コマンドの詳細については、「Primesoft Distributed File System for Hadoop V1 ユーザーズガイド」の「コマンドリファレンス」で該当するコマンドを参照してください。
bdpp_start コマンドの詳細は、「A.14 bdpp_start」を参照してください。
ジョブの実行中にマスタサーバ(プライマリ)で異常が発生し、マスタサーバ(セカンダリ)への切替えが起こった場合、実行していたジョブは中断されてしまいます。ジョブの実行状況を確認し、切り替わったマスタサーバ(セカンダリ)で、必要に応じて再度ジョブを実行してください。
注意
Hadoop の起動・停止を行う場合
マスタサーバ(プライマリ)が異常な状態、もしくは起動していない場合のみ、マスタサーバ(セカンダリ)だけで Hadoop の起動および停止が可能です。マスタサーバ(プライマリ)が復旧した後は、すみやかにマスタサーバ(プライマリ)へ切り戻してください。
マスタサーバ(プライマリ)が正常な状態において、マスタサーバ(セカンダリ)で Hadoop を起動しないでください。
参照
マスタサーバの状態については、「マスタサーバの HA クラスタの状態確認」を参照してください。
Hadoop の起動・停止については、「A.14 bdpp_start」「A.16 bdpp_stop」を参照してください。
マスタサーバ(プライマリ)のシステムログなどを参照して異常の原因を調査し、取り除いてください。
また、マスタサーバにサーバの再構築が必要となるような重度の障害が発生した場合は、本製品のリストア機能を使用して復旧作業を行ってください。リストア機能を使用することで、システム構成や、マスタサーバの定義情報を復元することができます。
マスタサーバのリストアの手順については、「15.2.1.1 マスタサーバ、開発実行環境サーバ、連携サーバのリストア」を参照してください。
ポイント
リストアを行うためには、事前に正常稼働時のマスタサーバのバックアップを採取している必要があります。
マスタサーバのバックアップ手順については、「15.1.2.1 マスタサーバ、開発実行環境サーバ、連携サーバのバックアップ」を参照してください。
マスタサーバ(プライマリ)の復旧が完了した後、復旧を行ったマスタサーバ(プライマリ)の再起動を行ってください。
マスタサーバ(プライマリ)の復旧・再稼働が完了したあとは、マスタサーバ(セカンダリ)からマスタサーバ(プライマリ)へ切戻しを行ってください。切戻しは、マスタサーバ(セカンダリ)で切戻しコマンドを実行する、またはシステムを再起動することで行うことができます。
なお、マスタサーバ(セカンダリ)で分析業務を行っていた場合は、一度休止してから(ジョブを停止してから)切戻しを行ってください。
コマンドで切戻しを行う手順は以下のとおりです。
マスタサーバ(セカンダリ)で DFS をアンマウントします。
これにより、DFS 管理サーバ(MDS)が切り戻されます。
例
DFS のマウントポイントが /mnt/pdfs の場合:
# pdfsumount /mnt/pdfs <Enter>
マスタサーバ(セカンダリ)で DFS をマウントします。
例
DFS のマウントポイントが /mnt/pdfs の場合:
# pdfsmount /mnt/pdfs <Enter>
マスタサーバ(プライマリ)で DFS が "run" 状態であることを確認します。
例
DFS 管理サーバ(MDS)がマスタサーバ(プライマリ)へ切り戻された状態:
# pdfsrscinfo -m <Enter> /dev/disk/by-id/scsi-1FUJITSU_300000370106: FSID MDS/AC STATE S-STATE RID-1 RID-2 RID-N hostname 1 MDS(P) run - 0 0 0 master1 ← マスタサーバ(プライマリ)が "run" 状態 1 AC run - 0 0 0 master1 1 MDS(S) wait - 0 0 0 master2 1 AC run - 0 0 0 master2
マスタサーバ(セカンダリ)で hvswitch コマンドを実行して、マスタサーバ(セカンダリ)からマスタサーバ(プライマリ)へ切り戻します。
# hvswitch app1 <Enter>
app1 は、固定の文字列です。
「マスタサーバの HA クラスタの状態確認」を参照して、マスタサーバ(プライマリ)へ切り戻されているかを確認します。
参照
pdfsumount、pdfsmount、pdfsrscinfo の各コマンドの詳細については、「Primesoft Distributed File System for Hadoop V1 ユーザーズガイド」の「コマンドリファレンス」で該当するコマンドを参照してください。
hvswitch コマンドの詳細は、「PRIMECLUSTER 活用ガイド <コマンドリファレンス編>」-「第7章」-「hvswitch」を参照してください。
注意
「13.1 スレーブサーバの追加」を行うためのマスタサーバの機能は、切替えの対象とはなりません。マスタサーバ(プライマリ)に異常が発生し、マスタサーバ(セカンダリ)に切り替わった場合は、マスタサーバ(プライマリ)で異常の原因を取り除いた後、マスタサーバ(プライマリ)へ切戻しを行ってから、再度「13.1 スレーブサーバの追加」を実施してください。
参考
マスタサーバが二重化構成であり、マスタサーバ(プライマリ)もしくはマスタサーバ(セカンダリ)のどちらかが起動しなかった場合は、以下のとおり運用を開始します。
マスタサーバ(プライマリ)が起動していない場合のシステム起動
マスタサーバ(プライマリ)が異常により動作しない状況で、システムをマスタサーバ(セカンダリ)だけで起動した場合、bdpp_start コマンドによる Hadoop の起動が可能です。
Hadoop の起動については、「A.14 bdpp_start」を参照してください。
マスタサーバ(セカンダリ)が起動していない場合のシステム起動
マスタサーバ(セカンダリ)が異常により動作しない状況で、システムをマスタサーバ(プライマリ)だけで起動した場合、bdpp_start コマンドによる Hadoop の起動が可能です。
Hadoop の起動については、「A.14 bdpp_start」を参照してください。