ページの先頭行へ戻る
Interstage Information Storage トラブルシューティング集
Interstage

3.5.5 sfcfrmd デーモンが起動しない場合の対処方法

DSS サーバを冗長化している環境において、以下の状況で、sfcfrmd デーモンが起動しない場合の対処方法について説明します。

DSS ファイルシステムを運用するすべてのノードで一貫性のあるデータアクセスができるように、クラスタ整合状態が保証されるまで sfcfrmd デーモンの起動は保留されます。

sfcfrmd デーモンの起動が保留された場合は以下のメッセージが出力されます。

WARNING: sfcfsrm:5001: Starting the sfcfrmd daemon was suspended because quorum does not exist

通常は、このメッセージが出力された場合でもクラスタ整合状態が保証され次第、sfcfrmd デーモンは起動するため対処は必要ありません。

ただし、以下の場合は、クラスタ整合状態が保証されない状態が続くため、DSS ファイルシステムの運用を開始するためには対処が必要となります。

以下の手順で DSS ファイルシステムの運用を開始してください。


  1. すべてのDSSサーバでクラスタ状態を確認します。

    すべてのDSSサーバに接続し、Cluster Admin、または、cftool(1M) コマンドを使用して、DSSサーバの状態を表示します。その結果が、すべてのDSSサーバで同じであることを確認します。

    cftool -n <Enter>
    Node  Number State       Os      Cpu
    sunny 1      UP          Linux    EM64T
    moony 2      UP          Linux    EM64T

    すべてのDSSサーバで同じ表示結果とならない場合は、クラスタパーティションが発生しています。

    参照

    cftool(1M) の詳細は、“PRIMECLUSTER Cluster Foundation 導入運用手引書 (Linux版)”の“ノードの詳細”または“マニュアルページ”を参照してください。


  2. クラスタパーティションが発生していない場合は、運用を開始するすべての DSS サーバで、sfcfrmd デーモンを、sfcfrmstart(8) を使用して強制起動します。

    sfcfrmstart -f <Enter>

  3. クラスタパーティションが発生している場合は、発生した状況に合わせて以下のように対処してください。

    • LEFTCLUSTER の DSS サーバが存在する場合

      PRIMECLUSTER のシャットダウン機構がすべての DSS サーバで正常に動作している場合は、シャットダウン機構がクラスタパーティションの問題を解決するため、対処は必要ありません。

      しかし、シャットダウン機構が正常に動作していない場合、または、シャットダウン機構による強制停止処理が失敗した場合は、手動で状態を回復する必要があります。

      PRIMECLUSTER Cluster Foundation 導入運用手引書 (Linux版)”の“クラスタパーティションが発生した場合”を参照して、対処してください。

    • LEFTCLUSTER のDSS サーバが存在しない場合

      • DSS サーバ、または、CF の再起動操作を行ったとき

        “PRIMECLUSTER Cluster Foundation 導入運用手引書 (Linux版)”の“参入関連の問題”を参照し、対処してください。

      • すべての CF の起動操作を行ったとき

        すべての CF を停止後、クラスタパーティションの問題を解決してから、“導入ガイド”の“DSSサーバで Cluster Admin から CF を起動する手順”に従って、再度 CF を再起動してください。

      • すべての DSS サーバで起動操作を行ったとき

        すべての DSS サーバを shutdown(8) で停止後、クラスタパーティションの問題を解決してから、再度DSS サーバを再起動してください。

      注意

      DSS サーバの起動が保留されている場合は、shutdown(8) を実行する前に、以下の手順で DSS サーバの起動を完了させてください。

      1. ps(1) で sfcfsrm スクリプトのプロセス ID を確認します。出力の先頭が sfcfsrm スクリプトのプロセス ID です。

        /bin/ps -e | /bin/grep sfcfsrm <Enter>
        18550 ?        00:00:00 S76sfcfsrm
      2. kill(1) で sfcfsrm スクリプトを停止します。

        kill -9 18550 <Enter>

    参考

    一部のDSSサーバですぐに運用を開始したい場合は、以下の手順に従ってください。

    1. 手順 1 の確認結果をもとに、どのDSSサーバを残すか決定します。

    2. 残さない DSS サーバを shutdown(8) で停止します。
      DSS サーバの起動が保留されている場合は、shutdown(8) を実行する前に起動を完了させます。手順は、前述の「注意」を参照してください。

    3. 残す DSS サーバにおいて、起動が保留されている sfcfrmd デーモンを、sfcfrmstart(8)で強制起動します。sfcfrmstart(8) の実行方法は、前述の手順2 を参照してください。