ETERNUS SF Storage Cruiser ユーザーズガイド 13.1 - Solaris (TM) Operating System / Microsoft(R) Windows(R) -
目次 索引 前ページ次ページ

第7章 性能管理

7.1

本製品では、ファイバチャネルスイッチおよび、ETERNUSディスクアレイに対して性能管理機能をサポートします。この機能により、装置内の細かな動作状況や負荷状況を把握することが可能です。ただし、ETERNUSディスクアレイのメインフレームボリューム及びMVV、SDVに関する性能管理はサポートしていません。

性能情報は、Systemwalker Service Quality Coordinatorで参照することが可能です。ただし、一部サポートしていない性能情報がありますので、詳細についてはSystemwalker Service Quality Coordinatorのマニュアルを確認して下さい。

サポート装置については「1.3.5 サポートレベル」を参照して下さい。

管理できる情報は以下の通りです。

  1. ファイバチャネルスイッチの場合

    性能情報(単位) ファイバチャネルスイッチ
    ポート 送信および受信データ転送量(MB/S)
    CRCエラー数

  2. ETERNUSディスクアレイの場合

    性能情報 (単位) ETERNUS8000
    ETERNUS4000(M80/100除く)
    ETERNUS6000 ETERNUS4000 M80/100,
    ETERNUS3000(M50除く),
    ETERNUS GR series
    (ETERNUS GR720以上)
    LUN
    LogicalVolume
    RAIDGroup
    ReadおよびWrite回数
    (IOPS)
    ReadおよびWriteデータ転送量
    (MB/S)
    ReadおよびWriteの平均応答時間 (msec)
    Read,Pre-fetchおよびWriteキャッシュヒット率 (%)
    ディスクドライブ ディスク使用(ビジー)率 (%)
    CM 負荷(CPU使用)率 (%)
    コピー残量 (GB) ×
    CA 負荷(CPU使用)率(%) × ×
    ReadおよびWrite回数
    (IOPS)
    ×
    ReadおよびWriteデータ転送量
    (MB/S)
    ×
    DA 負荷(CPU使用)率(%) × ×
    ReadおよびWrite回数
    (IOPS)
    × ×
    ReadおよびWriteデータ転送量
    (MB/S)
    × ×

各装置で設定可能な性能監視間隔は、「7.2.3 監視間隔設定」を参照してください。

また、以下の時間単位のグラフウィンドウを提供します。

  1. 1時間グラフウィンドウ

    選択した性能監視間隔の各時間の値を元にした折れ線グラフを1時間分表示します。

    例えば、

    性能監視間隔が30秒の場合は、各30秒間隔で取得した値を元にした折れ線グラフを1時間分表示します。

    性能監視間隔が60秒の場合は、各1分間隔で取得した値を元にした折れ線グラフを1時間分表示します。

    性能監視間隔が300秒の場合は、各5分間隔で取得した値を元にした折れ線グラフを1時間分表示します。

    性能監視間隔が600秒の場合は、各10分間隔で取得した値を元にした折れ線グラフを1時間分表示します。

  2. 1日グラフウィンドウ

    10分間の平均値を元にした折れ線グラフを1日分表示します。

  3. 1週間グラフウィンドウ

    1時間の平均値を元にした折れ線グラフを1週間分表示します。

また、性能管理情報を元にファイバチャネルスイッチ及び、ETERNUSディスクアレイに対して閾値監視機能をサポートします。

閾値監視とは、日々の業務運用において、ストレージおよびスイッチの性能値が、ある条件の下で一定の値(閾値)に達した場合に、アラームおよびレポートを通知する機能です。

閾値監視を使うメリットは、日々の業務運用において、扱うデータ量の変化や業務処理量の変化に伴うストレージおよびスイッチの性能低下の兆候を、自動的かつ確実に検出するできることです。

閾値監視機能で期待される効果は、ボトルネック箇所の早期発見および原因の特定、装置構成の改善を図ることにより性能低下による業務への影響を回避し、最適な環境での運用が可能となることです。

閾値監視機能で管理できる情報は以下の通りです。

  1. ファイバチャネルスイッチの場合

    Portスループット(%)

    ※Portスループット値(MB/S)に関して、最大転送能力(MB/S)に対する許容範囲の割合(%)として監視します。

  2. ETERNUSディスクアレイの場合

    LUN (OLU)のレスポンス時間(msec)

    RAIDGroup (RLU,LUN_R)の平均使用(ビジー)率(%)

    CM負荷(CPU使用)率 (%)

なお、閾値監視機能で提供するウィンドウには閾値監視アラームログとコンディションレポートウィンドウがあります。

閾値監視アラームログウィンドウは、この機能により監視されている装置全体で検出された閾値監視アラーム項目の一覧を表示します。

また、コンディションレポートウィンドウは以下の四種のウィンドウを提供します。

  1. LogicalVolumeレスポンスタイム異常

    監視装置内のLogicalVolumeレスポンスタイムが指定閾値設定状態を検出したことと対策指針を表示します。

  2. RAIDGroup負荷異常

    監視装置内のRAIDGroup使用率が設定状態に到達したことと対策指針を表示します。

  3. CM負荷異常

    監視装置内のCM負荷率が設定状態に到達したことと対策指針を表示します。

  4. ポートスループット負荷異常

    監視装置内のポート受信/送信使用率が設定状態に到達したことと対策指針を表示します。

7.2 性能管理の流

GUI画面上で性能管理対象の装置に対して性能管理指示を行なうと、本製品の性能管理部が各装置に対してLAN経由でSNMPを定期的に発行して装置の性能情報を確保し、性能データとして、運用管理サーバに格納していきます。この性能データを性能管理ウィンドウで表示して管理を実施します。

7.2.1 運用管理サーバ側のディスク容量の確認

性能管理を実施する上で、性能データ格納用に運用管理サーバに多くのディスク容量が必要です。インストールガイドを参照し、十分なディスク容量が確保できているか確認してください。なお、本製品で設定保持期限を過ぎた性能データを削除する機能を持っています。標準では7日になっており、7日前以前のデータは自動的に削除されます。この設定保持期限の設定は可能です。「付録D カスタマイズ」を参照してください。

7.2.2 性能管理指示

リソース管理画面のSANビューで、対象装置を左クリック選択し、メニューの[装置(D)]-[性能管理設定(S)]を選択するか、右クリックでポップアップメニューから[性能管理設定]を選択すると監視状態を設定するダイアログが表示されます。

        ETERNUSディスクアレイに対する性能管理設定画面

        ファイバチャネルスイッチに対する性能管理設定画面

ETERNUSディスクアレイの場合は、性能情報確保対象となるLogicalVolume(LUN_V)の最小値と最大値を入力してください。LUN設定を実施する理由として、必要以外のLogicalVolume確保を実施しないことより、性能データを格納するディスク領域への影響や、性能情報確保負荷の軽減があります。従って、性能データ確保が必要な必要最小限のLogicalVolume範囲を入力することを推奨します。

装置の構成変更を行った場合は、性能管理機能が保持する装置構成情報を更新して下さい。更新の手順については、「7.2.11 構成情報の更新」を参照下さい。

7.2.3 監視間隔設定

ETERNUS8000シリーズ、ETERNUS6000シリーズ、ETERNUS4000シリーズ、ETERNUS3000シリーズ、GRシリーズ、ファイバチャネルスイッチの共通設定として、性能情報を確保する間隔を入力します。間隔は5秒/10秒/30秒/60秒/300秒/600秒の設定が指定可能です。ただし、指定可能な間隔は、装置および性能を確保するLogicalVolume数により異なります。詳細は下記の表を参照してください。

監視条件

指定可能な間隔

装置機種

性能を確保するLogicalVolume数

ETERNUS3000
GR740,820,840
GR720,730

128以下

5秒/10秒/30秒/60秒/300秒

129〜2047

30秒/60秒/300秒

2048以上

60秒/300秒

ETERNUS6000

64以下

10秒/30秒/60秒/300秒

65〜2047

30秒/60秒/300秒

2048以上

60秒/300秒

ETERNUS8000

ETERNUS4000

256以下

30秒/60秒/300秒/600秒

257〜1024

60秒/300秒/600秒

1025〜8192

300秒/600秒

8193以上

600秒

ETERNUS SN200

ETERNUS SN200 MDS

-

5秒/10秒/30秒/60秒


このダイアログで[開始]を実行すると、性能管理部に対して性能情報確保指示が発行され(性能管理の流れの図参照)、性能管理部がLANを経由して装置の性能情報を確保し、性能データとして格納していきます。なお、性能管理部は運用管理サーバのデーモンとして起動されるため、運用管理サーバ起動中はGUI画面の起動なしに性能を確保し続けます。

ストレージに対しては装置の論理構成を認識し性能情報確保を開始します。よって選択されたストレージに対して初めて性能情報確保開始時は、実際の性能情報確保まで論理構成確保時間(数十秒から数分)が掛かります。

性能監視が開始されると、マップ表示上のアイコンの左上に緑色の『P』マークが表示されます。また、性能管理ウィンドウが開かれ、当該ファイバチャネルスイッチ、ストレージがツリー上に表示されている場合、装置名が『P』マークと同色で表示されます。

このPマークの色と状態、対処方法については以下の通りです。なお、この色は現状の状態と異なる場合があります。GUI画面で、[最新の情報に更新]または[F5]を実行して最新の状態を確認してください。

Pマークの色

状態

対処

性能監視中(正常)

性能監視中です。

性能監視リカバリ中(装置タイムアウト等)

運用管理サーバから装置に通信できません。ネットワークの状態や装置の状態を確認してください。また、ETERNUSmgr/GRmgrでログイン状態にある場合は、ログオフしてください。

性能情報ファイル書き込み失敗

ファイルの書き込み権、ファイルシステムの容量を確認してください。

GRの登録パスワード違い

本製品で装置の再登録をやり直し、再度性能監視を起動してください。

内部エラー

当社保守員までご連絡ください。


7.2.4 性能管理ウィンドウの起動

性能を表示するために、性能管理ウィンドウを起動します。性能管理ウィンドウは、GUI画面のメニューの[ファイル(F)]-[性能管理ウィンドウ(W)]を選択するか、右クリックでポップアップメニューから[性能管理ウィンドウ]を選択することによって起動されます。

7.2.5 選択した装置の性能表示方法

リソース管理画面で表示されている装置アイコンをドラッグして性能管理ウィンドウにドロップすることにより性能管理ウィンドウで装置の性能情報を表示することが可能になります。性能管理ウィンドウは複数作成することも可能です。また、1つの性能管理ウィンドウに対して複数の装置をドロップし、表示させることも可能です。

7.2.6 ファイバチャネルスイッチの性能表示

性能管理ウィンドウの装置のツリー表示上で、性能を表示させたいファイバチャネルスイッチのポート番号を選択し、右クリックしてポップアップメニューから[性能グラフ表示]を選択します。

以下のダイアログが表示されます。このダイアログでは表示する内容を選択します。

時間軸

表示させたいグラフの時間幅を選択します。1時間、1日、1週間のいずれかを選択します。

日時指定

現在の時刻が表示されますが、表示させたいグラフの日時を選択します。

スループット

データ転送量(MB/S)を表示します。ここでは情報種類を選択します。ポートの送信側性能のグラフウィンドウを表示するか、受信側性能のグラフウィンドウを表示するか、送受信両方性能の同時表示する1つのグラフウィンドウを表示するかを選択します。送信と受信は同時に選択可能ですが、送受信を選択すると送信・受信は選択できなくなります。

エラー情報

当該ポートで発生しているCRCエラー数のグラフを表示する機能です。

以下は上記ダイアログを選択した場合の表示結果です。送信側と、受信側の別々のスループットのグラフウィンドウが時間幅1時間で表示されます。このグラフからポートの動作状況が把握できます。グラフウィンドウの詳細な使い方については、「B.10.5 グラフウィンドウ機能説明」を参照してください。

ツリー上で[Ctrl]や[Shift]キーを押しながらポートを左クリックすることにより複数ポートを選択し、右クリックしてグラフ表示を実行すると、同時に複数のポートの性能情報を表示可能です。

この場合、表示の前のダイアログでは以下のように、『ポート毎にウィンドウを開く』を選択する部分が追加されています。これを設定した場合、ポートごと別々のウィンドウが開きます。

設定しない場合は、ダイアログ内の『スループット合計』が選択可能になります。これを選択するとポートの合計値をグラフ化したものが表示され、選択しない場合は各ポートの値が同一グラフウィンドウに表示されます。なお、この時、送受信を選択し、スループットの合計を未選択とすることはできません。

以下は『ポート毎にウィンドウを開く』及び『スループット合計』を選択せずに表示した例です。ウィンドウ上のグラフ線ボタンを選択することにより、各ポートがどのグラフ線に相当するか確認できます。この例の場合は、ポート14の使用率が高いということが分かります。

7.2.7 ストレージ性能表示

ETERNUSディスクアレイのアイコンを性能管理ウィンドウにドロップすると、以下のようなストレージの論理構成ツリーを表示することができます。

『AffinityGroup』は選択したストレージのゾーン機能の番号を表示します。

『LUN』はサーバノード側に見える論理ユニット番号になります。これは装置内部で管理している装置内ユニークな番号が与えられる『LogicalVolume(OLU、LUN_V)』に割り当てられるため、ツリーでは『LUN X(LogicalVolume X)』のように表現しています。

『LUN』配下に位置される『RAIDGroup』はそのLUNがどの『RAIDGroup』(=ランク)に含まれるかを示します。

『RAIDGroup』または『RAIDGroup[x-x]』配下の『Disk』(=物理ドライブ)はランクを構成しているドライブを表示します。『RAIDGroup』または『RAIDGroup[x-x]』配下の『LogicalVolume』は、同一RAIDGroupに属している他のLogicalVolumeの番号を表示します。

詳細については、「B.10.3 ツリー表示の説明」を参照してください。

"0x"で始まる数字は16進数、その他の数字は10進数です。

7.2.7.1 LUN、RAIDGroupの性能情報表示

性能管理ウィンドウの装置のツリー表示上で、性能を表示させたいLUNまたはRAIDGroup番号を選択し、右クリックでポップアップメニューを表示させ[性能グラフ表示]を選択します。

この際、複数選択することも可能です。[Ctrl]や[Shift]キーを押しながらLUNまたはRAIDGroupを左クリックすることにより複数選択し、右クリックして[性能グラフ表示]を実行します。

以下のダイアログが表示されます。このダイアログで表示するグラフウィンドウを選択します。

時間軸

表示させたいグラフの時間幅を選択します。1時間、1日、1週間のいずれかを選択します。

日時指定

現在の時刻が表示されますが、表示させたいグラフの日時を選択します。

IOPS

1秒間に何回のI/Oが発行されたかを表示します。

スループット

データ転送量(MB/S)を表示します。

レスポンスタイム

平均I/O処理時間(msec)を表示します。

キャッシュヒット率

キャッシュにヒットした割合(%)を表示します。

* IOPS、スループット、レスポンスタイムは、それぞれリードのグラフウィンドウを表示するか、ライトのグラフウィンドウを表示するか、 R/W(リード及びライト)両方の情報を同時表示する1つのグラフウィンドウを表示するかを選択できます。リードとライトは同時に選択可能ですが、R/Wを選択するとリードとライトは選択できなくなります。

* キャッシュヒット率は、リードのヒット率のグラフウィンドウを表示するか、ライトのヒット率のグラフウィンドウを表示するか、プリフェッチヒット率のグラフウィンドウを表示するか、 R/W/P(リードヒット/ライトヒット/プリフェッチヒット)全ての情報を同時表示する1つのグラフウィンドウを表示するか選択できます。リードとライトとプリフェッチは同時に選択可能ですが、R/W/Pを選択するとリードとライトとプリフェッチは選択できなくなります。

ここで複数の論理ユニット番号を指定してグラフ表示を実行した場合は、ダイアログに『LUN毎にウィンドウを開く』が表示され、これを選択すると、LUNごとにグラフウィンドウが表示されます。

これを選択しない場合は、ダイアログに『合計』を選べる部分が表示され、これらを選択すると『合計』のグラフが表示され、選択しない場合は複数の論理ユニット番号の情報が同一グラフウィンドウに表示されます。なお、この時、R/W/PやR/Wを選択し、『合計』を未選択にすることはできません。

7.2.7.2 Disk(物理ドライブ)の性能表示

性能管理ウィンドウの装置のツリー表示上で、性能を表示させたいDisk番号を選択し、右クリックでポップアップメニューを表示し[性能グラフ表示]を選択します。

この際、複数のDiskを選択することも可能です。[Ctrl]や[Shift]キーを押しながらDiskを左クリックすることにより複数選択し、右クリックして[性能グラフ表示]を実行します。

以下のダイアログが表示されます。このダイアログで表示したいグラフウィンドウを選択します。

時間軸

表示させたいグラフの時間幅を選択します。1時間、1日、1週間のいずれかを選択します。

日時指定

現在の時刻が表示されますが、表示させたいグラフの日時を選択します。


ここで複数のDisk番号を指定してグラフ表示を実行した場合は、ダイアログに『Disk毎にウィンドウを開く』が表示され、これを選択すると、Diskごとにグラフウィンドウが表示されます。これを選択しない場合は、複数Diskの情報が同一グラフウィンドウに表示されます。

7.2.7.3 モジュールの性能表示

性能管理ウィンドウの装置のツリー表示上で、性能を表示したいモジュール(CM,CA,DA)を選択し、右クリックでポップアップメニューを表示し、[性能グラフ表示]を選択します。 この際、複数選択することも可能です。[Ctrl]や[Shift]キーを押しながらCM/CA/DAを左クリックすることにより複数選択し、右クリックして[性能グラフ表示]を実行します。

DAの場合は以下のダイアログが表示されます。CAの場合はCA性能グラフ表示ダイアログが表示されます。このダイアログで表示するグラフウィンドウを選択します。

時間軸

表示させたいグラフの時間幅を選択します。1時間、1日、1週間のいずれかを選択します。

日時指定

現在の時刻が表示されますが、表示させたいグラフの日時を選択します。

CPU

DAまたはCAのCPU使用率(%)を表示します。

IOPS

DAまたはCAポートで1秒間に何回のI/Oが発行されたかを表示します。

スループット

DAまたはCAポートのデータ転送量(MB/S)を表示します。

CMの場合は次のダイアログが表示されます。このダイアログで表示されるグラフウィンドウを選択します。

時間軸

表示させたいグラフの時間幅を選択します。1時間、1日、1週間のいずれかを選択します。

日時指定

現在の時刻が表示されますが、表示させたいグラフの日時を選択します。

グラフ

使用率

CMモジュールのCPU使用率(%)を表示します。

コピー残量

アドバンスト・コピー(EC,OPC)の残りコピー量(GB)を表示します。EC/OPCが共に動いている場合、EC/OPCのトータル残りコピー量となります。


ダイアログの『ポート毎にウィンドウを開く』および『CM毎にウィンドウを開く』は、複数選択を行なった場合に選択すると、それぞれのモジュール単位にグラフウィンドウが表示されます。

7.2.8 グラフウィンドウの操作

性能データが大きい場合 (特にETERNUSディスクアレイのRAIDGroupや複数選択時)、LANの負荷が高い場合、<前の1時間>ボタン、<次の1時間>ボタンでグラフを表示するまで時間が掛かります。この場合は、グラフウィンドウの画面部で右クリックし、ポップアップメニューを起動すると、グラフの時間幅を変更したグラフウィンドウを表示できるコマンドが表示されます。このコマンドを選択し、1時間単位のグラフウィンドウから1日グラフウィンドウを表示させ、1日グラフウィンドウ内の見たい時刻にマウスを移動させ、再度右クリックのポップアップメニューより、1時間グラフウィンドウを選択し、確認したい時刻を中心にグラフをスムースに移動させることが可能となります。

また、1日グラフウィンドウ、1週間グラフウィンドウの<ピーク>ボタンで最大値グラフを表示できます。これにより、最大値の時刻にマウスを移動させ、右クリックのポップアップメニューにより、最大値の時刻を同様に中心としてのグラフをスムースに移動させることが可能となります。

詳細は、「B.10.5 グラフウィンドウ機能説明」を参照してください。

7.2.9 性能管理使用例

サーバノードからストレージに対するI/O遅延が発生した際に、ストレージ内に要因がないかを以下の方法によって調査することが可能です。なお、これは例であり、I/O遅延を決定する要素を100%この方法によって断定することを可能としているわけではありません。

  1. I/O処理遅延が発生した時間とアクセスパスを特定してください。

  2. 本製品より対象アクセスパスに定義されているのAffinityGroup番号、LUN番号を確認します。

  3. 性能管理より対象LUN性能を表示、確認します。

  4. LUN部のレスポンスタイムが悪い場合は、RAIDGroupの性能を確認します。RAIDGroupのレスポンスタイムも悪い場合は、RAIDGroupに属している他のLogicalVolumeを検索し、そのLogicalVolumeがどのLUNに割り当てられているかを検索します。それらのLUNのI/O状況を確認し、RAIDGroupに対して高い負荷を与えていないかを確認します。もし、高い負荷を与えていると判断した場合は、当該LUNを他RAIDGroupに移動させる等の処置を行ないます。

7.2.10 性能管理停止指示

GUI画面で、対象装置を左クリック選択し、メニューの[装置(D)]-[性能管理設定(S)]を選択するか、右クリックでポップアップメニューから[性能管理設定(S)]を選択し、監視状態を設定する画面で[停止]を選択します。

7.2.11 構成情報の更新

性能管理機能では、独自に装置の構成情報を保持しています。

装置の構成を変更する場合、以下の手順に従って性能管理機能が保持する装置の構成情報を更新してください。また、性能監視および閾値監視を実施している装置に対し構成を変更した場合も、以下の手順にて構成情報を更新してください。

性能監視および閾値監視を実施している装置に対し構成を変更した場合、性能監視および閾値監視は、更新前の構成情報で監視を実施しています。以下の手順にて、構成情報を更新するまでの性能情報および閾値監視は、保証できません。

《構成情報を更新する手順》

  1. 性能監視の設定内容を記録する (性能監視を実施している場合)

    《記録する設定内容》

  2. 閾値監視の設定内容を記録する (閾値監視を実施している場合)

    《記録する設定内容》

  3. 閾値監視を停止する  (閾値監視を実施している場合)

    「7.3.7 閾値監視停止指示」を参照してください。

  4. 性能監視を停止する  (性能監視を実施している場合)

    「7.2.10 性能監視停止指示」を参照してください。

  5. 装置に対し、構成変更を実施する

  6. 性能管理ウィンドウのメニューバーより[装置]-[構成情報ファイル作成]の実行する

  7. 1で記録した設定内容をもとに、性能監視を開始する (性能監視を実施している場合)

    「7.2.2 性能管理指示」、「7.2.3 監視間隔設定」を参照してください。

  8. 2で記録した設定内容をもとに、閾値監視を開始する (閾値監視を実施している場合)

    「7.3.3 閾値監視時間帯の設定」、「7.3.4 閾値監視情報の設定」を参照してください。

7.2.12 性能データ格納場所 

性能データは運用管理サーバの以下のディレクトリ配下にCSVファイルにて格納されます。

[Solaris OS版マネージャ] /var/opt/FJSVssmgr/current/perf/配下

[Windows版マネージャ] 運用管理サーバ作業用ディレクトリ\Manager\var\opt\FJSVssmgr\current\perf\配下

必要に応じて性能データをディレクトリごと保管し、必要時に同じ形式で復旧することにより以前の情報を表示させることが可能です。

ただし、性能データは自動削除機能が動作していますので、リストア時には、データ保持期限の日数を確認の上実行してください。データ保持期限については、「D.4 perf.confパラメータ説明」を参照してください。

例:(Solaris OS)

7.3 閾値監視の流

性能管理ウィンドウで性能管理対象の装置に対して閾値監視指示を行なうと、本製品の性能管理部が各装置に対してLAN経由でSNMPを定期的に発行して装置の性能情報が確保されることで閾値監視部が性能情報を逐次、解析を行ないます。

この結果、情報として問題を検出した場合に、SAN管理画面ではアラームとしてイベントログに表示、性能管理ウィンドウでは閾値監視アラーム通知ログウィンドウに表示されます。

7.3.1 運用管理サーバ側のディスク容量の確認

閾値監視を実施する上で、閾値監視アラーム通知ログのコンディションレポート格納用として運用管理サーバにディスク容量が必要です。おおよそ4MBを使用しますので、ディスク容量が確保できるか確認ください。なお、本製品で設定保持期限を過ぎたコンディションレポートデータを自動的に削除する機能を持っています。標準では365日になります。365日以前のデータは自動的に削除されます。この設定保持期限は変更可能です。「B.10.6 閾値監視ダイアログ機能説明」のアラーム削除設定を参照してください。

7.3.2 閾値管理指示

GUI画面の性能管理ウィンドウのツリーから装置名ツリーノードを選択し、メニューから[閾値監視(T)]を選択すると各種閾値監視設定のメニューが表示されます。ただし、対象装置がすでに性能管理にて性能確保指示が行われている必要があります。

ここで、[閾値監視有効/無効(E)]を選択してください。これにより閾値監視有効となり各種閾値監視設定が可能となります。

7.3.3 閾値監視時間帯の設定

[閾値監視時間設定(I)]を選択することで閾値監視時間帯の設定が行なえます。設定を行なわない場合はすべての時間帯での閾値監視およびアラームとしてイベントログに表示されます。閾値設定内容によっては閾値監視アラームログが大量に報告される場合が考えられます。閾値監視時間設定は対象装置の使われ方により負荷状態が大きく変化するようなシステム環境におきましては性能が最も気になる時間帯の設定をお勧めします。

7.3.4 閾値監視情報の設定

次に[閾値設定/監視開始/監視停止(S)]を選択し、対象装置の閾値設定情報を設定し、監視開始を指示します。これにより、閾値監視が開始されます。なお、閾値監視部は性能管理部と共に運用管理サーバのデーモンとして起動されるため、運用管理サーバ起動中はGUI画面の起動なしに閾値監視を続けます。また、閾値設定情報の設定に関しては「B.10.6 閾値監視ダイアログ機能説明」を参照ください。

7.3.5 閾値監視アラームログ表示

閾値監視アラームログを表示する場合は性能管理ウィンドウを起動し、メニューの閾値監視を選択し、リストが表示されますので、[閾値監視アラームログ(L)]を選択することにより起動できます。閾値監視で検出されたアラームログのリストが表示されます。性能管理ウィンドウは、GUI画面のメニューの[ファイル(F)]-[性能管理ウィンドウ(W)]の選択によって起動されます。

7.3.6 コンディションレポート表示

[閾値監視アラームログ(L)]で表示されたリストの詳細内容が表示されます。このレポートログ表示により各々の閾値監視アラームに対する対策指針を知ることができます。閾値監視アラームログの参照したいレポート行にマウスを合わせ、左ダブルクリックすることで表示されます。

7.3.7 閾値監視停止指示

GUI画面の性能管理ウィンドウのメニューの[閾値監視(T)]を選択し、[閾値設定/監視開始/監視停止(S)]を選択します。表示される閾値設定画面の<監視停止>ボタンにて指示します。

7.4 閾値監視における各閾値の評価基

ストレージにおける閾値について

ストレージにおける閾値の目安を以下に示します。

 

オンラインレスポンス重視システム

バッチスループット重視システム

LogicalVolumeレスポンス

30msec以下

-

RAIDGroupビジー率

60%以下

80%以下

CMビジー率

80%以下

90%以下


オンライン業務のようなレスポンス重視のシステムでは、LogicalVolumeレスポンスを30msec以内に収めることが、ストレージを快適に使用する一つの目安になります。レスポンスを30msec以下にするためには、RAIDGroupビジー率を60%以下、CMビジー率を80%以下に抑えてください。

バッチ業務のようなスループット重視のシステムでは、シーケンシャルアクセスによりキャッシュヒット率が高くなるため、LogicalVolumeのレスポンスは数msecとなります。ただし、キャッシュヒット率はアプリケーションのアクセスに大きく影響されるため値の変動が激しくなります。その結果レスポンスも数msec〜50msec以上となることもあるので、バッチ業務の場合、LogicalVolumeレスポンスの閾値の目安はありません。

バッチ業務においてスループットを高くするためには、ストレージの資源を最大限に使用することが必要となりますが、上記の閾値を超えた場合、急激な性能低下となる可能性があります。従って、バッチ業務において、RAIDGroupビジー率80%以下、CMビジー率90%以下を目安にして下さい。

なお、アドバンスト・コピー実行中の時間帯では、アドバンスト・コピー処理自体によりCMビジー率が高くなります。
その場合は、アドバンスト・コピー実行も加味した上で、閾値設定を行ってください。

7.5 閾値監視の使用

以下に、閾値監視の使用例を示します。
どのようなケースにおいて、どのような設定を行なうべきか等、閾値監視の考え方としてご参照ください。

ケース1:架空A社様 オンライン業務システムの場合

■資料1:システム運用規定および性能用件(抜粋)

  1. オンライン業務稼動時間帯は、毎日朝8:00〜夕方18:00

  2. オンライン業務繁忙時間帯は、毎日12:00〜15:00

  3. 当該システムは、繁忙時間帯の業務量においてもオペレータ端末操作はノンストレスである事を必須とする。
    従って、I/Oレスポンスの目標性能は、一般的な基準値である「30msec以下」とする。
    なお、繁忙時間帯以外のI/Oレスポンス目標性能については、業務量の比率(繁忙時間帯の業務量は、繁忙時間帯以外の約3倍)から、30msecの3分の1である「10msec以下」とする。

  4. 繁忙時間帯では、データ参照・更新・追加処理の集中により、最大60分間連続実行する場合がある。
    この時、I/Oレスポンス30msec以上の状態が当該連続実行中の10%相当分(6分間)発生した場合、オペレータ端末側の操作にストレスを与える可能性がある。
    従って、この状態が発生した時にアラームログを作成するように設定する。

  5. 繁忙時間帯でのI/Oレスポンスが繁忙時間帯以外の性能目標と同等の10msec以下になった場合には、それ以前に発生していたI/Oレスポンス遅延は瞬間的な現象であると判断する。
    従って、この状態が発生した時にはアラームログ作成を行なわなくても良い。

  6. イベントログ表示は、アラームログ作成時に毎回行なう必要は無く、1日1回表示されれば良い。
    (システム管理者は1日1回コンディションレポートのチェックを行なうため)

■A社様 オンライン業務システムの稼動状況イメージ(LogicalVolumeレスポンスの変化)

■A社様 オンライン業務システムにおける閾値監視設定の例としては、以下のようになります。

資料1に対応する番号

設定項目

設定値(設定内容)

1

閾値監視時間

8:00-18:00

2

アラーム表示時間

12:00-15:00

3

閾値監視対象

LogicalVolumeレスポンス

3

閾値

30msec

4

閾値監視単位時間

60分

4

アラーム許容範囲

合計時間 360秒

5

下限値

10msec

6

アラーム表示頻度

日毎

ケース2:架空B社様 オンラインショッピングシステムの場合

■資料2:システム運用規定および性能用件(抜粋)

  1. オンライン業務稼動時間帯は、24時間365日。

  2. オンライン業務繁忙時間帯は、特定出来ない。

  3. 当該システムは、本稼動を開始してから除々に「ご利用会員数」の増加に伴いアクセス数が増加していく。そのため、ストレージに対する負荷も除々に増大していくものと推測する。従って、ストレージのリソース(CM、ディスク)のビジー率が概ね6〜8割程度を超えた場合には、対策を講じなければならない。

  4. 当該システムは、5分間隔でクレジット決済処理が発動するため、決済直前の5分間は商品の検索処理・注文処理がノンストレスで実行されなければならない。万一、ストレージのリソースのビジー状態(ビジー率6〜8割を超える状態)が5分間持続する場合、取引に影響を及ぼす可能性がある。従って、この状態が発生した時にはアラームログを作成するように設定する。

  5. イベントログ表示は、アラームログ作成時に毎回行なうようにする。システム管理者はイベントログ表示を契機にコンディションレポートのチェックを実施する。

■B社様 オンラインショッピングシステムの稼動状況イメージ(CMビジー率の変化)

■B社様 オンラインショッピングシステムにおける閾値監視設定の例としては、以下のようになります。

資料2に対応する番号

設定項目

設定値(設定内容)

1

閾値監視時間

0:00-24:00

2

アラーム表示時間

0:00-24:00

3

閾値監視対象

CMビジー率

3

閾値

60%

4

アラーム許容範囲

連続時間 300秒

5

アラーム表示頻度

すべて

 

資料2に対応する番号

設定項目

設定値(設定内容)

1

閾値監視時間

0:00-24:00

2

アラーム表示時間

0:00-24:00

3

閾値監視対象

RAIDGroupビジー率

3

閾値

80%

4

アラーム許容範囲

連続時間 300秒

5

アラーム表示頻度

すべて

ケース3:架空C社様 複数DBサーバ(クラスタシステム)によるバッチ処理運用の場合

■資料3:システム運用規定および性能用件

  1. システム運用時間帯は、24時間365日。

  2. バッチ処理稼動時間帯は、毎日夜20:00〜23:00

  3. 当該システムは、3ノードでOracle RACシステムを構築している。現在のところデータ量は少ないためバッチ処理の性能は特に問題は無いが、将来に向けてデータ量が増加するに従いFCスイッチとストレージ間のFCパス転送能力ネックが懸念される。
    万一FCパスのボトルネックが生じた場合、速やかに対処しなくてはならない。

  4. FCパスのボトルネックとして、Portスループットが最大転送能力の概ね8割程度に到達した状態を想定し、本状態が30分間以上持続した時にはアラームログを作成するように設定する。

  5. イベントログ表示は、アラームログ作成時に毎回行なう必要は無く、バッチ処理稼動時間帯の中で1回以上アラームログが発生した場合でも1回表示されれば良い。システム管理者はイベントログ表示を契機にコンディションレポートのチェックを実施する。

■C社様 複数DBサーバ(クラスタシステム)でのバッチ処理状況イメージ(Portスループットの変化)

■C社様 業務システムのバックアップ運用における閾値監視設定の例としては、以下のようになります。

資料3に対応する番号

設定項目

設定値(設定内容)

1

閾値監視時間

0:00-24:00

2

アラーム表示時間

20:00-23:00

3

閾値監視対象

Portスループット

3

閾値

80%

4

アラーム許容範囲

連続時間 1800秒

5

アラーム表示頻度

監視時間毎

7.6 コンディションレポートと対応策につい

7.6.1 LogicalVolumeレスポンス遅延

レポート詳細:
RAIDGroupXXXXに定義されるLogicalVolumeYYYYのレスポンスタイム遅延を検出しました。

関連すると予想される他の対象の監視状態は次の通りです。
<各CMの監視状態>←(1)
[CM0x00] 高負荷状態検出
[CM0x01] 未検出
[CM0x10] 未検出
[CM0x11] 未検出

RAIDGroupXXXXの監視状態:高負荷状態検出←(2)

レスポンスタイム遅延を検出したI/Oのブロックサイズは8 Kbytesです。←(3)

関連するグラフ:
LogicalVolumeYYYYのレスポンスタイムのグラフを参照してください。

対策の指針:
1. RAIDGroup高負荷状態の可能性があります。RAIDGroupビジー率(Disk使用率)のアラーム確認及び対策の指針を参照してください。
2. CM高負荷状態の可能性があります。CMビジー率のアラーム確認及び対策の指針を参照してください。
3. ブロックサイズが大きいためI/O処理に時間を要していると考えられます。閾値の見直しを行ってください。

(1)
LogicalVolumeがレスポンス遅延を検出した同じ時間帯の各CMの状態を表示します。

高負荷状態検出

同じ時間帯でCM負荷異常としてアラームログが作成されています。レスポンス遅延を検出したLogicalVolumeの担当CMが『高負荷状態検出』の場合、CMネックによるレスポンス遅延の可能性があります。当該CMのアラームの対策指針を行ってください。

監視継続中

アラームとして検出されてはいませんが、何度か閾値を超えて、アラーム検出のため監視中の状態です。

未検出

【CMビジー率が監視対象になっている場合】
同じ時間帯でCMネックにはなっていません。
LogicalVolumeの定義されるRAIDGroupのアラームを確認してください。

【CMビジー率が監視対象になっていない場合】
CMビジー率は監視していません。
(この場合、CMビジー率がいかなる状態であっても、「未検出」表示になります。)

(2)
LogicalVolumeがレスポンス遅延を検出した同じ時間帯の当該LogicalVolumeが定義されるRAIDGroupの状態を表示します。

高負荷状態検出

同じ時間帯でRAIDGroup負荷異常としてアラームログが作成されています。RAIDを構成するDiskネックによるレスポンス遅延の可能性があります。当該RAIDGroupのアラームの対策指針を行ってください。

監視継続中

アラームとして検出されてはいませんが、何度か閾値を超えて、アラーム検出のため監視中の状態です。

未検出

【RAIDGroupビジー率が監視対象になっている場合】
同じ時間帯でRAIDを構成するDiskネックにはなっていません。

【RAIDGroupビジー率が監視対象になっていない場合】
RAIDGroupビジー率は監視していません。
(この場合、RAIDGroupビジー率がいかなる状態であっても、「未検出」表示になります。)

(3)
LogicalVolumeのレスポンス遅延を検出した時点のI/Oブロックサイズを表示します。
当該LogicalVolumeの担当CM、定義されるRAIDGroupが『高負荷状態検出』状態ではない場合は、CMおよびDiskネックではなく、閾値に対してのI/Oブロックサイズが大きいためアラームとなっている可能性があります。
例えばLogicalVolumeのレスポンス 30msecの閾値設定において、レスポンス遅延を検出した時に、CMおよびDisk共にネックでは無く、かつI/Oブロックサイズ 512Kbytesである場合は、I/Oブロックサイズが大きいことによるレスポンス遅延の可能性が最も高いと思われます。 なお、一般的にI/Oブロックサイズが大きいほどレスポンスも大きくなります。レスポンス 30msecを基準とした時に、I/Oブロックサイズ=512Kbyte以上である場合が、I/Oブロックサイズによるレスポンス遅延の目安になります。
LogicalVolumeのレスポンス閾値を見直すか、もしくはアプリ側でI/Oブロックサイズを小さくする等の対処が必要となります。

7.6.2 RAIDGroup負荷異常

レポート詳細:
RAIDGroupXXXXの高負荷状態を検出しました。

関連するグラフ:
RAIDGroupXXXXビジー率(Disk使用率)のグラフを参照してください。
RAIDGroupXXXX内の各LogicalVolumeについて、IOPSグラフを参照してください。

対策の指針:
1. I/Oが同一RAIDGroup内のLogicalVolumeに集中している可能性があります。←(1)
当該RAIDGroup内のLogicalVolumeを他のRAIDGroup(あるいは新規増設RAIDGroup)に配置変更して、I/Oを分散してください。

(1)
Diskネックによる対策指針を提示します。
当該RAIDGroup内の最もIOPSの高いLogicalVolumeのデータを、Disk使用率の少ないRAIDGroupあるいは新規増設RAIDGroupに配置変更をして、I/Oの負荷分散を図る等の対処が必要となります。

7.6.3 CM負荷異常

レポート詳細:
CMXXの高負荷状態を検出しました。

関連すると予想される他の対象の監視状態は次の通りです。
<各CMの監視状態>←(1)
[CM0x00] 高負荷状態検出
[CM0x01] 未検出
[CM0x10] 未検出
[CM0x11] 未検出
関連するグラフ:
CM使用率グラフを参照してください。
各LogicalVolumeのIOPSグラフを参照してください。←(2)

対策の指針:
1. I/Oが同一CM担当下のRAIDGroupに集中している可能性があります。←(2)
各CMの監視状態を参考に負荷の低いCM担当下のRAIDGroupにI/Oを分散してください。
2. 各CMの監視状態が全て「監視継続中」又は「高負荷状態検出」の場合全I/O要求に対してCM数が不足していると考えられます。
ハード増設あるいはアップグレードをご検討ください。

(1)
当該CMが高負荷状態を検出した同じ時間帯の他のCMの状態を示します。

高負荷状態検出

同じ時間帯で当該CMもCM負荷異常としてアラームログが作成されています。

監視継続中

アラームとして検出されてはいませんが、何度か閾値を超えて、アラーム検出のため監視中の状態です。

未検出

同じ時間帯で当該CMはネックにはなっていません。

(2)
当該CMのみが高負荷状態を検出している場合、当該CMに偏ったI/Oアクセスとなっています。
RAIDGroup、LogicalVolumeのIOPSグラフを参照し、CM毎のI/O負荷分散を図る等の対処が必要となります。

7.6.4 Portスループット負荷異常

レポート詳細:
PortXの高負荷状態を検出しました。
当該ポートは最大転送 1Gbpsです。

関連するグラフ:
PortXのスループットグラフを参照してください。

対策の指針:
1. I/Oが同一Portに集中している可能性があります。
当該Portのパスの設定確認または、パス・スイッチの増設をご検討ください。←(1)


(1)
当該Portに負荷が集中しています。論理パスの変更や増設時の設定ミス等で、同一Portにアクセスが偏っていることが考えられます。当該スイッチの全Portの送受信グラフを参照し、Portの負荷バランスを検討してください。

目次 索引 前ページ次ページ

All Rights Reserved, Copyright(C) 富士通株式会社 2007