ロギング機能により、イベントログをHadoopシステム内に蓄積する場合、蓄積したイベントログの内容を分析するアプリケーションの設計を行います。アプリケーションはHadoopのAPIを使用し、Hadoopシステム上で動作します。
Hadoopシステム上で動作するアプリケーションの設計、開発の詳細についてはInterstage Big Data Parallel Processing Server(以降BDPP)のマニュアルを参照してください。
アプリケーションが分析対象とするイベントログのデータ形式は以下の通りです。
イベントログは、イベントタイプ定義や複合イベント処理文のロギングリスナで指定するログ格納領域に出力されます。出力先のログ格納領域は自動生成されます。
出力先がHadoopシステムの場合、詳細は以下の通りです。
エンジン構成ファイルのディレクトリ名要素に指定する値によって、出力先を変更できます。
ディレクトリ名要素に、ディレクトリ名を指定した場合、出力先は以下の値を連結したパスになります。
pdfs.fs.local.basedirの設定値(*1)
エンジン構成ファイルで指定するディレクトリ名
イベントタイプ定義、またはロギングリスナで指定するログ格納領域
自動生成されるログファイル名
(*1) pdfs.fs.local.basedirはHadoopのマウントディレクトリです。詳細はBDPPのマニュアルを参照してください。
ディレクトリ名要素に、スラッシュ(/)のみを指定した場合、出力先は以下の値を連結したパスになります。
pdfs.fs.local.basedirの設定値
イベントタイプ定義、またはロギングリスナで指定するログ格納領域
自動生成されるログファイル名
例
出力先の例
次の条件の場合、出力先は「/mnt/pdfs/hadoop/tmp/ログファイル名」になります。
pdfs.fs.local.basedirに設定される値が「/mnt/pdfs」で、かつ、
エンジン構成ファイルのディレクトリ名に「hadoop」を指定していて、かつ、
イベントタイプ定義、または複合イベント処理文のロギングリスナで指定するログ格納領域に、「/tmp」を指定している場合
次の条件の場合、出力先は「/mnt/pdfs/tmp/ログファイル名」になります。
pdfs.fs.local.basedirに設定される値が「/mnt/pdfs」で、かつ、
エンジン構成ファイルのディレクトリ名にスラッシュ(/)を指定していて、かつ、
イベントタイプ定義、または複合イベント処理文のロギングリスナで指定するログ格納領域に、「/tmp」を指定している場合
注意
イベントログの出力先が重複した場合、かつ、イベントデータの形式が同じ場合、異なるイベントタイプのイベントデータが、同じファイルに出力されます。イベントタイプ別、または、ロギングリスナでの出力別に分析を行う場合は、出力先を分離してください。
HadoopのSequenceFile(バイナリファイル)形式です。
ログファイルは、ログ格納領域に、以下のファイル名で自動生成されます。
このファイルは、デフォルト300秒で拡張子が“.done”にリネームされます。
日時_VM名_枝番
日時:yyyyMMddHHmmssSSS
VM名:プロセスID@CEPサーバのホスト名
枝番:0000000001~0000000122
ポイント
拡張子が“.done”のファイルが、イベントログ分析アプリケーションによる分析対象になります。任意のディレクトリに移動して分析してください。
注意
拡張子が“.done”以外のファイルは、出力中のファイルのため操作しないでください。
ファイルサイズの上限はLONG MAX(2の63乗-1)です。
ありません。
時刻情報(yyyyMMddHHmmss)がキーになります。対応する Hadoop の型(API)は org.apache.hadoop.io.Text です。
上記時刻は、イベントデータの書込タイミングの時刻になります。(CEPエンジンがイベントを受信した時刻と異なる場合があります)
入力イベントをそのまま出力します。対応する Hadoop の型(API)は org.apache.hadoop.io.BytesWritable です。
レコード圧縮
6
参考
出力先がエンジンログの場合
入力イベントをそのままエンジンログに出力します。