対象バージョンレベル
Windows版:V5.0L10以降
Solaris版:5.0以降
Linux版:5.2、V10.0L10以降
Linux for Itanium版:V12.0L10以降
HP-UX版:5.1以降
AIX版:5.1以降
DS版:V20L10
以下のすべての対処に該当していないかチェックしてください。
対処1
原因
実行多重度の制限値に達しています。ジョブが実行多重度の制限値(システム全体とキューごとに指定可)を下回るまでは、実行が待たされます。
対処方法
必要に応じて、実行多重度の制限値を見直してください。
システム全体の実行多重度の制限値は、以下の画面で確認します。
[運用情報の定義]ウィンドウ-[運用制御]シートの[ジョブの多重度]
キューごとの実行多重度の制限値は、以下の画面で確認します。
[キュー状態表示/操作]ウィンドウの[多重度]
また、以下の運用を検討してください。
実行多重度の制限値に達していないキューに投入する。
同時に実行されるジョブ数を減らす。
対処2
原因
キューが停止しています。
対処方法
ジョブの実行キューを起動することにより、ジョブを実行させることができます。
[キュー状態表示/操作]ウィンドウを表示するか、または、qstatコマンドを投入して、キューの状態を確認します。その後、停止しているキューについて、ウィンドウ上で開始操作をするか、または、qstartコマンドにより起動してください。
対処3
原因
V5.0L20/5.1以前のバージョンレベルの場合、または、V5.0L30/5.2以降のバージョンレベルで[同名ジョブを同時に実行しない]にチェックがある場合、同一ジョブ名を持つ複数のジョブは同時に実行されません。後に依頼されたジョブは、先に依頼されたジョブが実行を終了するまで、実行が開始されないため、遅延が発生します。(ただし、サブシステム環境の場合は、サブシステムごとに制御されるため、サブシステムをまたがる同一ジョブ名を持つ複数のジョブは同時に実行されます。)
対処方法
複数のジョブが同一ジョブ名を持たないようにジョブ名を変更してください。
同名のジョブを同時に実行するには、以下のいずれかの対処を実施してください(V5.0L20/5.1以前のバージョンレベルでは使用できません)。
V11.0L10/11.1以降の場合
[Systemwalker Operation Manager 環境設定]ウィンドウで[運用情報]をクリックすると表示される[運用情報の定義]ウィンドウ-[旧互換]シートで[同名ジョブを同時に実行しない]チェックボックスを無効にし、定義を有効にする。
V5.0L30/5.2以降、V10.0L21/10.1以前の場合
[Systemwalker Operation Manager 環境設定]ウィンドウで[運用情報]をクリックすると表示される[運用情報の定義]ウィンドウ-[利用機能]シートで[同名ジョブを同時に実行しない]チェックボックスを無効にし、定義を有効にする。
定義を有効にするためには、ジョブ実行制御のサービス/デーモンを再起動してください。
参考
“ジョブ名(J)”のフィールドが未入力の場合、“コマンド名(C)”に指定したパス名からディレクトリのパス名および、拡張子を取り除いた名前がジョブ名になります。
対処4
原因
実行中のジョブが割り当てているリソースと同じリソースを割り当てようとしています。キューにつながれたジョブと同じリソースを割り当てる実行中のジョブが、終了するまで実行されません。
対処方法
[ジョブ状態表示/操作]ウィンドウを表示するか、または、qjstatコマンドを投入して、実行中状態のジョブ、および、実行されないジョブを確認します。その後、各ジョブについて、[監視-ジョブ]ウィンドウ-[基本情報]シート-[リソース名]でリソース定義を比較してください。
対処5 (UNIX版 V17.0.0以降の場合)
原因
分散実行機能では、接続に失敗したホストは、5分固定で(接続に失敗したホストをダウン状態と判定してから5分経過後に)構成ホストへ復帰させる動作になっています。
この5分の復帰時間では、ホスト停止中や再起動中などで接続のタイムアウト時間が長くなるほど、再接続に失敗する可能性が高くなります。再接続が失敗し、さらに後続のホストへの接続が失敗すると、ダウンしているホスト間でのみ接続を試みる動作が繰り返され、ジョブの実行が可能な他のホストへ実行依頼されません。
以下に、“5.3.2 ネットワークジョブの実行に失敗する(エラーメッセージ:MJS881Sが出力される)”の対処7に従って、接続のタイムアウト時間を5分(300秒)に設定し、かつ、OSの設定でタイムアウト時間が4分(Solarisのデフォルト値)の場合を例に説明します。
この例では、停止中のため構成ホスト1~3の接続に失敗しますが、構成ホスト4の接続確認に到達する前に、構成ホスト1の復帰時間5分が経過してしまいます。そのため、復帰した構成ホスト1へ再度接続を試みることとなります。
その結果、停止中の構成ホスト1~3の間で再接続が繰り返され、構成ホスト4の接続確認は行われずジョブが実行されません。
注) “5.3.2 ネットワークジョブの実行に失敗する(エラーメッセージ:MJS881Sが出力される)”の対処7により設定した接続のタイムアウト値より、OSの設定値が小さい場合、OSの設定値でタイムアウトする動作となります。そのため、本例の場合4分でタイムアウトとなります。
対処方法
停止中のホストの間で再接続が繰り返されないよう、通常5分となっている復帰時間を変更し、より多くのホストへ接続を試みることができるようにします。
復帰時間は5~60分の間で指定できます。
以下に解決策の例を示します。
この例では、復帰時間を15分(900秒)にしています。
構成ホスト1~3の接続処理に失敗しても、タイムアウト値の合計は12分のため、構成ホスト1の復帰時間15分が経過する前に、構成ホスト4の接続確認が行われ、ジョブが実行されます。
注) “5.3.2 ネットワークジョブの実行に失敗する(エラーメッセージ:MJS881Sが出力される)”の対処7により設定した接続のタイムアウト値より、OSの設定値が小さい場合、OSの設定値でタイムアウトする動作となります。そのため、本例の場合4分でタイムアウトとなります。
設定は、投入サーバで実施します。
設定した投入サーバ上で行われる分散実行先の確定処理において、本定義が有効になります。
以下に設定方法を示します。
サブシステム運用の場合は、サブシステムごとに定義してください。
定義ファイルはviなどのエディタで作成し、値を設定してください。
作成したファイルは、すべてのユーザに読み込み権を設定してください
クラスタ構成のシステムでは、以下の定義ファイルは共有ディスク上に配置されます。各ノードでそれぞれで定義ファイルを作成する必要はありません。共有ディスクにアクセス可能な運用系ノードで定義ファイルを作成してください。
サブシステム運用なし・サブシステム0の場合
/etc/mjes/mjconf.ini |
サブシステム1~9の場合
/etc/mjes/mjesN/mjconf.ini |
N:1~9
[Disthost] Revival=nnnn |
本機能を利用する場合、本セクションを指定してください。
省略した場合、復帰時間は300秒(デフォルト値)です。
分散実行先の構成ホストが接続失敗となった場合に復帰するまでの秒数をnnnnに指定します。本設定は300~3600(秒)の範囲で指定してください。
本キーは省略可能です。省略した場合、または定義ファイルを作成しない場合、または設定したファイル形式に誤りがある場合のデフォルト値は300(秒)になります。
セクション名、キー名の間にタブや空白など、形式外の文字を含めないでください。
キー名に対する値を省略するなど、上記形式以外のファイルを作成しないでください。
本機能を設定した場合、すべての構成ホストグループが影響を受けます。
各グループで構成ホスト数が異なる場合、“設定値の見積もり方法”で示す計算式のホスト数には、登録されているホストが最も多い構成ホストグループの情報を使用してください。
本機能とは別の定義を設定した同名の定義ファイルがすでに存在する場合は、別の定義と混在して定義することが可能です。
定義ファイルの設定例
[Disthost] |
読み込み権の設定例
# chmod 444 /etc/mjes/mjconf.ini |
設定した内容は、mjconf.ini定義ファイルの作成後に実行されるジョブに対して有効となります。
Systemwalker Operation Managerのデーモンを停止する必要はありません。
設定したキー“Revival”を削除します。
構成ホストへの復帰時間は、以下の計算式で算出します。
算出した結果が300秒以下の場合、変更は必要ありません。
(構成ホストとして登録されているホストの数-1)×n秒 |
“5.3.2 ネットワークジョブの実行に失敗する(エラーメッセージ:MJS881Sが出力される)”の対処7により設定した接続のタイムアウト時間と、OSで設定されているタイムアウト時間を比べ、小さい値を設定してください。
例)構成ホストが登録可能な最大数(10ホスト)の場合
nが34秒以上の場合、算出した値より大きい値を復帰時間として設定します。
構成ホストが10ホストの場合、計算式は以下になるので、300秒を超える最低秒数は34秒となります。そのため、nが33秒以下の場合、変更は不要です。
(10-1)×34=306
nが100秒の場合、計算式は以下になるので“Revival=900”を設定します。
(10-1)×100=900