Hadoop連携機能では、以下のサーバからNetCOBOLが提供するHadoop実行シェルを利用してHadoopジョブを実行します。
Interstage Big Data Parallel Processing Serverと連携する場合
開発実行環境サーバ
Apache Hadoopと連携する場合
マスタサーバ
Hadoop実行シェルの修正
Hadoop実行シェルには、利用するHadoopで提供されているHadoop Streamingのjarファイルを定義する必要があります。
Hadoop実行シェルは、以下のパスに格納されています。
/opt/FJSVcbl64/bin/cobhadoop.sh
初めて実行する場合やHadoopのバージョンを変更する場合、Hadoop実行シェルをテキストエディタで開き、以下の行の右辺を利用可能なHadoop Streamingのjarファイルのパスに修正してください。
STREAMING_JAR=/usr/share/hadoop/contrib/streaming/hadoop-streaming-1.2.1.jar
注意
Hadoop実行シェルの修正には、root権限が必要です。
デフォルトでは、Hadoop Streamingのjarファイルとして「hadoop-streaming-1.2.1.jar」が定義されています。
Hadoop実行シェルの実行方法
Hadoop実行シェルには、MapReduce設定ファイルをパラメタに指定して実行します。
$ cobhadoop.sh -conf MapReduce設定ファイル
MapReduce設定ファイルの指定を省略することはできません。
Hadoop実行シェルは、シェルの戻り値としてジョブが成功すると「0」を、失敗すると「0以外」を返します。
ただし、MapReduceアプリケーションが復帰値を返す場合、その最大値を返します。
Hadoop実行シェルを実行中に「Ctrl+C」キーを入力することにより、タスクを中断させることができます。
参考
Hadoop実行シェルの引数には、汎用Hadoopコマンドラインオプションを指定することができます。たとえば、「-D」オプションを使用することで、Hadoopのプロパティの値を指定することができます。これにより、タスクのタイムアウト時間やReduceタスク数などをジョブごとに変更できます。
例:タスクのタイムアウト時間に「300秒」を指定し、かつReduceタスク数に「0」を設定する場合。
$ cobhadoop.sh -conf MapReduce設定ファイル -D mapred.task.timeout=300000 -D mapred.reduce.tasks=0