ジョブヒストリログ可視化ツール(以降、本ツール)は、Hadoopが出力するジョブヒストリログを入力しジョブヒストリサマリファイル(以降、サマリファイル)と呼ばれる以下のような内容のExcelファイルを目視しやすい形式で出力します。
各Hadoopジョブの詳細情報
上記を元に作成した時刻ごとの実行タスク数のグラフや、全てのタスクの実行時間のタイムチャート
このExcelファイルを参照することでジョブのデバッグが容易になります。
ポイント
ジョブヒストリログとは、Hadoopジョブの実行結果や実行したタスク数などの実行履歴が記載されたログファイルです。通常のテキストファイルですが、目視では確認しづらい形式になっています。
ジョブヒストリログには以下の2種類があり、それぞれ格納先・保存期間が異なります。
システム用ジョブヒストリログ
DFS上のシステム用の領域に格納され、保存期間は30日です。
ユーザー用ジョブヒストリログ
Hadoopジョブの結果出力ディレクトリに格納され、保存期間は無期限です。
実行環境
本ツールを実行可能な環境は以下の通りです。
実行環境 | ||||
---|---|---|---|---|
マスタサーバ | スレーブサーバ | 開発実行環境サーバ | 連携サーバ | |
プライマリ | セカンダリ | |||
○ | ○ | × | ○ | × |
○:使用できます。
×:使用できません。
必須パッケージ
本ツールの実行には、以下に示すRed Hat Enterprise Linux(RHEL)のパッケージをインストールする必要があります。
また、gnuplotパッケージのインストール後、"gnuplot"コマンドの格納先(<gnuplotインストールディレクトリ>/bin)を環境変数PATHに追加してください。
Red Hat(R) Enterprise Linux(R) 6.3 (for Intel64)
Red Hat(R) Enterprise Linux(R) 6.4 (for Intel64)
Red Hat(R) Enterprise Linux(R) 6.5 (for Intel64)
gnuplot(*1)
cairo
expat
fontconfig
freetype
glib2
glibc
libgcc
libpng
libstdc++
libxcb
libX11
libXau
libXrender
ncurses-libs
pango
pixman
readline
zlib
*1:varsion4系(version 4.4 patchlevel 4以降)をインストールしてください。
Red Hat(R) Enterprise Linux(R) 5.8 (for Intel64)
Red Hat(R) Enterprise Linux(R) 5.9 (for Intel64)
Red Hat(R) Enterprise Linux(R) 5.10 (for Intel64)
gnuplot(*1)
cairo
expat
fontconfig
freetype
gd
glib2
glibc
libgcc
libjpeg
libpng
libstdc++
libX11
libXau
libXdmcp
libXpm
libXrender
ncurses
pango
readline
zlib
*1:varsion4系(version 4.4 patchlevel 4以降)をインストールしてください。