5.1 Linux OS に関するトラブル

Linux OS 固有のトラブルについて説明します。

■トラブル一覧

No.	現象
Q5-1-1	Adaptec ドライバをアップデートし、リブートを行ったところ、シングルユーザモードでシステムが起動される
Q5-1-2	NIC 増設後に既存の NIC での通信が不可となる
Q5-1-3	OS のインストール時に RAID の内蔵ドライブが認識されない
Q5-1-4	システムがシングルユーザモードで起動される
Q5-1-5	システムがシングルユーザモードで起動される【RHEL v2.1】
Q5-1-6	システムが突然リブートされる
Q5-1-7	システム起動時に Netdump のサービスが自動起動されない【PRIMECLUSTER 4.1A20 以降と RHEL v3 の組み合わせ】
Q5-1-8	Netdump の採取ができない【PRIMECLUSTER 4.1A20 以降と RHEL v3 の組み合わせ】
Q5-1-9	Netdump を採取したところ、ノードがハングしたまま応答が返らない【PRIMECLUSTER 4.1A20以降とRHEL v3 の組み合わせ】
Q5-1-10	KVM 環境でゲスト OS を起動すると以下のエラーメッセージが表示され、起動できない Cannot access storage file '/var/opt/SMAWsf/sfkvmmigrate.img'

Q5-1-1 Adaptec ドライバをアップデートし、リブートを行ったところ、シングルユーザモードでシステムが起動される

原因: マルチパスドライバが導入されている環境で OS 標準の mkinitrd コマンドによる initrd 作成を行ったため、リブート時にマルチパスドライバが認識されない場合があります。

対処: initrd の作成時には、マルチパスドライバが提供している mkinitrd コマンド(/usr/fjsvgrmpd/bin/mkinitrd-mpd) を実行してください。

確認事項: OS 標準の mkinitrd コマンドを実行していませんか?

Q5-1-2 NIC 増設後に既存の NIC での通信が不可となる

原因: PCI-PCI Bridge の割り込み優先順位により、NIC の優先順位が変わるハードウェア仕様のため、通信が不可になる場合があります。

対処: PRIMERGY 本体添付のマニュアルに従い NIC の挿入位置を決定してください。
もし、何らかの理由で NIC の挿入位置が変更できない場合は、新たに割り当てられたネットワークインタフェース名のまま使用することを検討してください。NIC とネットワークインタフェース名の関係は、ipコマンドまたは ifconfig コマンドで表示される MAC アドレスを元に判断することができます。

確認事項: インタフェース名が変わっていませんか?

Q5-1-3 OS のインストール時に RAID の内蔵ドライブが認識されない

原因1: OS 導入前に論理ドライブが作成されていない可能性があります。

対処1: RAID 接続のドライブは、OS 導入前に RAID カードの BIOS/ 専用ユーティリティにより論理ドライブを作成する必要があります。

確認事項1: 内蔵ドライブの現調が終わっていますか?

原因2: 適切な RAID ドライバが使用されていない可能性があります。

対処2

ハードウェアにバンドルされる KickStart にてインストールを行ってください。
もし、何らかの理由で KickStart によるインストールを行わない場合には、ご使用のモデルに対応したRAID ドライバを以下の方法でドライバフロッピーからインストールする必要があります。

インストール時のboot:プロンプトにて、linux dd noprobe と入力します。
インストーラの指示に従いドライバフロッピーを挿入、SCSI の項より適切なドライバを選択します。

なお、この場合は NIC のドライバも自動認識されないため、別途導入する必要があります。

確認事項2: 適切な RAID ドライバが使用されていますか?

Q5-1-4 システムがシングルユーザモードで起動される

原因: システムで必須としているパーティションでエラーが発生している可能性があります。

対処: コンソールに表示されているメッセージからエラーの発生しているパーティションを特定し、fsck コマンド等での修復やバックアップからの復旧を試みてください。
コンソールメッセージがスクロールして画面から消えてしまった場合には、[Shift]+[PageUp]/[PageDown] でスクロールが可能です。

確認事項: システムで使用しているパーティションで障害が発生していませんか?

Q5-1-5 システムがシングルユーザモードで起動される【RHEL v2.1】

原因: LKCD シャットダウンエージェントが有効となっている場合、システム起動時にパニックステータス通知ディスク上のパニックステータスがクリアされていない可能性があります。

対処: パニックステータスのクリアに失敗した場合、クラスタへの参加を回避するためシングルユーザモードへと移行します。その際、共用ディスク装置を接続/起動してください。
もし、何らかの理由で共用ディスク装置がない状態でマルチユーザモードで起動する場合は、LKCD シャットダウンエージェントを無効にすることで回避できます。
詳細は、"PRIMECLUSTER 導入運用手引書 (Linux)" の "シャットダウン機構の設定に関する注意事項" を参照してください。

確認事項: RHEL AS/ES 2.1 の場合、共用ディスク装置 (GR/ETERNUS) が未起動あるいは未接続ではありませんか?

Q5-1-6 システムが突然リブートされる

原因1: ハードエラーによってハートビート異常が発生して、ノードが強制停止された可能性があります。

対処1: ServerView のログにエラーメッセージが出力されていないか確認してください。
ハードエラーが出力されている場合は、サポートデスクにご連絡ください。

確認事項1: ハード異常が発生していませんか?

原因2: パニックの発生により、システムが自動的にリブートされた可能性があります。

対処2: システムのリブート後、障害調査に必要なシステムおよびクラスタの情報を fjsnap（4.2A00以前はpclsnap) で採取し、サポートデスクにご連絡ください。

確認事項2: パニックが発生していませんか?

原因3: クラスタインタコネクトに対応するインタフェースに異常が発生した可能性があります。

対処3: ケーブル断、NIC 異常、コネクタ不良等、クラスタインタコネクトを構成するネットワークの異常を確認してください。
上記以外の原因で発生している場合は、全ノードで障害調査に必要なシステムおよびクラスタの情報をfjsnap（4.2A00以前はpclsnap) で採取し、サポートデスクにご連絡ください。

確認事項3: cip 情報の表示 (/opt/SMAW/SMAWcf/bin/ciptool -n コマンド) にて、down 状態のインタフェースがありませんか?

Q5-1-7 システム起動時に Netdump のサービスが自動起動されない【PRIMECLUSTER 4.1A20以降とRHEL v3 の組み合わせ】

原因: Netdump で使用する LAN 環境で、スイッチングハブを使用している場合、STP (Spanning-Tree Protocol) の設定により、サービスが自動起動されない場合があります。

対処: STP の設定に値(秒)が指定されている場合、ノード起動時にネットワークの Link-up が指定された秒間制御されます。使用しているスイッチングハブの STP の設定を "Disabled" に設定してください。
詳細は、Netdump クラスタ連携ツールのマニュアルを参照してください。

確認事項: 使用しているハブの STP を設定していませんか?

Q5-1-8 Netdump の採取ができない【PRIMECLUSTER 4.1A20 以降と RHEL v3 の組み合わせ】

原因1: Netdump で使用している LAN と GLS で使用している業務 LAN を共用している可能性があります。

対処1: Netdump 用の LAN と業務 LAN を分けてください。

確認事項1: Netdump で使用している LAN とGLS で使用している業務 LAN を共用していませんか?

原因2: Netdump クライアントで Netdump 用にオンボード LAN を使用している可能性があります。

対処2: RedHat 社提供のディストリビューションに含まれていない IHV ベンダのドライバ (broadcom 等)を使用しているオンボード LAN は、LAN ドライバが未サポートのため、ダンプ採取用途には使用できません。Netdump 用の LAN を別途用意してください。
詳細は、Netdump クラスタ連携ツールのマニュアルを参照してください。

確認事項2: Netdump クライアントにて、Netdump 用にオンボード LAN を使用していませんか?

注意

Update3 (U05011) を適用している場合、オンボード LAN (broadcom) を使用しても問題ありません。

Q5-1-9 Netdump を採取したところ、ノードがハングしたまま応答が返らない【PRIMECLUSTER 4.1A20 以降と RHEL v3 の組み合わせ】

対処: サーバ側にクライアントノードの実メモリ＋600MB 程度の領域を確保してください。
不要なファイルデータ等があれば、削除しておいてください。
また、システム設計時にも Netdump を利用する際の考慮をする必要があります。

確認事項: Netdump サーバの空き領域が不足していませんか?

Q5-1-10 KVM 環境でゲスト OS を起動すると以下のエラーメッセージが表示され、起動できない
Cannot access storage file '/var/opt/SMAWsf/sfkvmmigrate.img'

原因1

マイグレーション機能を使用する場合の事前準備において、以下が行われていません。

すべての管理 OS への管理 OS の情報ファイルの配置 (管理 OS 異常切替機能を使用しない場合)
すべての管理 OS での管理 OS の情報登録 (管理 OS 異常切替機能を使用する場合)

対処1

ゲスト OS のある管理 OS で以下を実施してください。
```
# virsh detach-disk domain vdpcl --persistent
```
domain
ゲスト OS のドメイン名を指定します。
"PRIMECLUSTER導入運用手引書 (Linux)" の "KVM環境でマイグレーション機能を使用する場合" の "事前設定"を再度実施してください。

原因2: 管理 OS の情報ファイル (/var/opt/SMAWsf/sfkvmmigrate.img) が誤って削除されています。

対処2

ゲスト OS のある管理 OS で以下を実施してください。
```
# virsh detach-disk domain vdpcl --persistent
```
domain
ゲスト OS のドメイン名を指定します。
"PRIMECLUSTER導入運用手引書 (Linux)" の "KVM環境でマイグレーション機能を使用する場合" の "事前設定"を再度実施してください。

原因3: 管理 OS からの PRIMECLUSTER のアンインストール時に、マイグレーション機能を使用する場合の事前設定が解除されていません。

対処3

ゲスト OS のある管理 OS で以下を実施してください。
```
# virsh detach-disk domain vdpcl --persistent
```
domain
ゲスト OS のドメイン名を指定します。