Interstage Big Data Parallel Processing Server V1.2.0 ユーザーズガイド

（目次をすべて閉じる）

第1部概説編

1.1 Interstage Big Data Parallel Processing Server とは

1.2 製品の特長

1.2.1 高性能

1.2.2 高信頼性

1.2.3 高運用性

2.1 独自分散ファイルシステム(DFS)

2.2 マスタサーバ二重化

2.3 スマートセットアップ

2.4 外部プログラムの並列実行

第2部導入編

第3章システム構成と設計

3.1 設計の概要

3.2 サーバの設計

3.2.1 サーバ構成

3.2.2 サーバ構成の設計

3.2.3 システム資源の設計

3.2.3.1 静的ディスク容量

3.2.3.2 動的ディスク容量

3.2.3.3 メモリ容量

3.2.3.4 システムパラメーター

3.3 ファイルシステムの設計

3.3.1 ファイルシステム構成

3.3.2 ファイルシステム構成の設計

3.3.2.1 ファイルシステムサイズ、データブロックサイズ、最大ファイルサイズの関係

3.4 ネットワークの設計

3.4.1 ネットワーク構成

3.4.2 ネットワーク構成の設計

3.5 ユーザーアカウントの設計

第4章システム要件

4.1 ハードウェア要件

4.1.1 ハードウェア条件

4.1.2 拡張カードオプション

4.2 ソフトウェア構成

4.3 ソフトウェア要件

4.3.1 基本ソフトウェア

4.3.2 必須ソフトウェア

4.3.3 排他ソフトウェア

4.3.4 関連ソフトウェア

第5章システム構築の準備

5.1 サーバの BIOS 設定

5.2 OS 導入時のファイルシステム

5.3 SELinux 機能の無効化

5.4 NetworkManagerの無効化

5.5 システムパラメーターの設定

5.6 ファイアーウォールの設定

5.7 ホスト名の設定

5.8 サーバ名の設定

5.9 業務 LAN のネットワークインターフェースの設定

5.10 システム時刻の設定

5.11 ストレージシステム環境の準備

5.12 ssh の設定

5.13 SNMP トラップデーモンの設定

5.14 ServerView Agent の設定

5.15 IPMI シャットダウンエージェントの設定

5.16 kdump シャットダウンエージェントの設定

5.17 KVM シャットダウンエージェントの設定

5.18 Microsoft LAN Manager モジュールの展開

第6章インストール

6.1 マスタサーバへのインストール

6.1.1 マスタサーバ機能のインストール

6.1.1.1 構成ファイル bdpp.conf の作成

6.1.1.2 マスタサーバ機能のインストール

6.1.1.3 ソフトウェア製品の修正適用

6.1.2 HA クラスタのセットアップ

6.1.2.1 HA クラスタのセットアップ1

6.1.2.2 HA クラスタのセットアップ2

6.1.2.3 システムの再起動

6.1.3 DFS のセットアップ

6.1.3.1 共用ディスク設定の確認

6.1.3.2 クラスタ状態の確認

6.1.3.3 管理パーティションの初期化

6.1.3.4 管理パーティションへの DFS 管理サーバ情報の登録

6.1.3.5 pdfsfrmd デーモンの起動

6.1.3.6 ファイルシステムの作成

6.1.3.7 MapReduce 実行用のユーザーID の設定

6.1.3.8 DFS クライアント情報の登録

6.1.3.9 マウントポイントの作成および fstab の設定

6.1.3.10 マウント

6.1.3.11 DFS ファイルシステム構成情報の生成

6.1.4 ネットワーク二重化・Hadoop のセットアップ

6.1.4.1 スレーブサーバ定義ファイル slaves の作成

6.1.4.2 ネットワーク二重化・Hadoop のセットアップの実行

6.2 スレーブサーバへのインストール

6.2.1 スレーブサーバ機能のインストール

6.2.1.1 構成ファイル bdpp.conf の作成

6.2.1.2 スレーブサーバ機能のインストール

6.2.1.3 ソフトウェア製品の修正適用

6.2.2 DFS のセットアップ

6.2.2.1 マウントポイントの作成および fstab の設定

6.2.2.2 マウント

6.2.3 ネットワーク二重化・Hadoop のセットアップ

6.2.4 スレーブサーバとの接続確認

6.3 2台目以降のスレーブサーバの追加

6.3.1 物理環境へのスレーブサーバ追加

6.3.1.1 スレーブサーバの導入

6.3.1.2 スレーブサーバの登録

6.3.1.3 ネットワークパラメーター・iSCSI 名の自動設定の登録

6.3.1.4 クローニングイメージの作成

6.3.1.5 システムの再起動

6.3.1.6 クローニング

6.3.1.7 システムの再起動

6.3.2 仮想環境へのスレーブサーバ追加

6.3.2.1 スレーブサーバの導入

6.3.2.2 ネットワークパラメーター・iSCSI 名の自動設定の登録

6.3.2.3 クローニング

6.3.2.4 サーバ名の設定

6.3.2.5 仮想マシンの再起動

6.4 開発実行環境サーバへのインストール

6.4.1 開発実行環境サーバ機能のインストール

6.4.1.1 構成ファイル bdpp.conf の作成

6.4.1.2 開発実行環境サーバ機能のインストール

6.4.1.3 ソフトウェア製品の修正適用

6.4.2 DFS のセットアップ

6.4.2.1 マウントポイントの作成および fstab の設定

6.4.2.2 マウント

6.4.3 Hadoop のセットアップ

6.5 連携サーバへのインストール

6.5.1 連携サーバ機能のインストール

6.5.1.1 構成ファイル bdpp.conf の作成

6.5.1.2 連携サーバ機能のインストール

6.5.1.3 ソフトウェア製品の修正適用

6.5.2 DFS のセットアップ

6.5.2.1 マウントポイントの作成および fstab の設定

6.5.2.2 hadoop グループおよび mapred ユーザーの登録

6.5.2.3 マウント

第7章アンインストール

7.1 マスタサーバからのアンインストール

7.1.1 ネットワーク二重化のアンセットアップ

7.1.2 DFS のアンセットアップ

7.1.3 HA クラスタのアンセットアップ

7.1.4 マスタサーバ機能のアンインストール

7.1.5 アンインストール後の作業

7.1.5.1 アンインストール後に残るディレクトリおよびファイルについて

7.1.5.2 「アンインストールと管理(ミドルウェア)」のアンインストール

7.1.5.3 アンインストール後に残るOSの設定について

7.1.5.4 アンインストール後に残るユーザーについて

7.1.6 システムの再起動

7.2 スレーブサーバからのアンインストール

7.2.1 ネットワーク二重化のアンセットアップ

7.2.2 DFS のアンセットアップ

7.2.3 スレーブサーバ機能のアンインストール

7.2.4 アンインストール後の作業

7.2.4.1 アンインストール後に残るディレクトリおよびファイルについて

7.2.4.2 アンインストール後に残るOSの設定について

7.2.4.3 アンインストール後に残るユーザーについて

7.2.5 システムの再起動

7.3 開発実行環境サーバからのアンインストール

7.3.1 DFS のアンセットアップ

7.3.2 開発実行環境サーバ機能のアンインストール

7.3.3 アンインストール後の作業

7.3.3.1 アンインストール後に残るディレクトリおよびファイルについて

7.3.3.2 アンインストール後に残るOSの設定について

7.3.3.3 アンインストール後に残るユーザーについて

7.3.4 システムの再起動

7.4 連携サーバからのアンインストール

7.4.1 DFS のアンセットアップ

7.4.2 連携サーバ機能のアンインストール

7.4.3 アンインストール後の作業

7.4.3.1 アンインストール後に残るディレクトリおよびファイルについて

7.4.3.2 アンインストール後に残るユーザーについて

7.4.4 システムの再起動

第3部運用編

第8章起動・停止

8.3 状態表示

第9章アプリケーションの開発と登録

9.1 アプリケーションの開発環境

9.2 アプリケーションの開発

9.2.1 アプリケーションの概要

9.2.2 アプリケーションの設計

9.2.3 アプリケーション作成

9.2.4 MapReduce アプリケーション開発のためのリファレンス

9.3 アプリケーションの登録

第10章ジョブの実行・停止

10.1 入出力データの準備

10.2 ジョブの実行

10.3 ジョブの停止

10.4 ジョブの状態表示

第11章外部プログラム並列実行機能の使い方

11.2 外部プログラムと入出力ファイル

11.3 作業手順

11.4 外部プログラムの開発

11.4.1 Mapタスクで使用するファイル

11.4.2 Reduceタスクで使用するファイル

11.5 MapReduce設定ファイル

11.5.1 MapReduce設定ファイルのフォーマット

11.5.2 MapReduce設定ファイルに指定する情報一覧

11.5.3 Hadoopジョブ名の指定

11.5.4 外部プログラムの指定

11.5.5 外部プログラムの再実行を行う復帰値のしきい値

11.5.6 ジョブをエラーとして扱う復帰値のしきい値

11.5.7 環境変数の指定

11.5.8 入出力ファイルの指定

11.5.9 出力データファイル格納基準ディレクトリの上書きの指定

11.5.10 キー情報の指定

11.5.11 Shuffle&sort入力データの扱いの指定

11.5.12 Map出力データファイル自動ソートの指定

11.5.13 処理レコード件数のログを取得する

11.5.14 カレントディレクトリの退避の指定

11.5.15 バッファサイズの指定

11.5.16 主キー一覧ファイルの指定

11.5.17 一意振り分けの指定

11.5.18 一意振り分けにおけるキーの上限数の指定

11.5.19 Mapタスク複数ファイル出力モード

11.6 Hadoopジョブの実行

11.6.1 実行に必要な資源の配付

11.6.2 Hadoop入力データファイルの準備

11.6.3 外部プログラムの並列実行

11.6.4 外部プログラムのエラーと復帰値

11.6.5 外部プログラムが出力するファイル

11.7 Shuffle&sortの振り分け処理について

11.7.1 ハッシュ値により振り分ける

11.7.2 キー分布を考慮し自動的に最適な条件に振り分ける

11.7.3 キーごとに異なるタスクに振り分ける

11.7.4 主キー一覧ファイル

11.7.4.1 主キー一覧ファイル作成コマンド

11.7.4.2 テキストエディタを使用した主キー一覧ファイルの作成

11.7.4.3 スペアReduceタスク

11.8 サンプルプログラム

11.8.1 サンプル1 CSVファイルの突合せ処理

11.8.2 サンプル2 CSVファイルのフィルタリングと集計処理

第12章ジョブの実行ユーザーの管理

12.1 ジョブ実行ユーザーの追加

12.1.1 ユーザーアカウントの作成

12.1.2 DFS上にユーザーのホームディレクトリを作成

12.1.3 MapReduceジョブユーザー認証キーの設定

12.2 ジョブ実行ユーザーの削除

12.2.1 DFS上に作成したユーザーのホームディレクトリの削除

12.2.2 ユーザーアカウントの削除

12.3 OSS実行時の環境変数の設定

12.3.1 ユーザープロファイルへの追加

第13章スレーブサーバの追加と削除

13.1 スレーブサーバの追加

13.1.1 ホスト名の設定

13.1.2 DFS クライアント情報の登録

13.1.3 クローニングによる追加

13.1.4 Hadoop の停止

13.1.5 再マウント

13.1.6 スレーブサーバ定義ファイルの編集および反映

13.1.7 Hadoop 設定パラメーターの変更

13.1.8 Hadoop の起動

13.2 スレーブサーバの削除

13.2.1 Hadoop の停止

13.2.2 スレーブサーバ定義ファイルの編集および反映

13.2.3 Hadoop 設定パラメーターの変更

13.2.4 Hadoop の起動

13.2.5 アンマウントおよび fstab の設定解除

13.2.6 DFS クライアント情報の削除

第14章ストレージシステムの追加と削除

14.1 ストレージシステムの追加

14.1.1 Hadoop の停止

14.1.2 アンマウント

14.1.3 パーティションの追加

14.1.4 DFS ファイルシステム構成情報の再作成と配付

14.1.5 マウント

14.1.6 Hadoop の起動

14.2 ストレージシステムの削除

14.2.1 Hadoop の停止

14.2.2 アンマウント

14.2.3 ファイルシステムの削除

14.2.4 ファイルシステムの作成

14.2.5 MapReduce 実行用のユーザーID の設定

14.2.6 DFS ファイルシステム構成情報の再作成と配付

14.2.7 マウント

14.2.8 Hadoop用のディレクトリ作成

14.2.9 Hadoop の起動

第15章バックアップ・リストア

15.1 バックアップ

15.1.1 バックアップコマンドによって退避される資源

15.1.2 バックアップ方法

15.1.2.1 マスタサーバ、開発実行環境サーバ、連携サーバのバックアップ

15.1.2.2 スレーブサーバのバックアップ

15.2 リストア

15.2.1 リストア方法

15.2.1.1 マスタサーバ、開発実行環境サーバ、連携サーバのリストア

15.2.1.2 スレーブサーバのリストア

第16章異常時の操作

16.1 マスタサーバ異常時の操作

16.1.1 マスタサーバが二重化構成の場合

16.1.2 マスタサーバが二重化構成でない場合

16.2 スレーブサーバ異常時の操作

16.3 開発実行環境サーバ異常時の操作

16.4 連携サーバ異常時の操作

16.5 ファイルシステム異常時の操作

16.6 異常の確認方法

第17章システムの設計・開発・運用における前提知識や役立つ情報

17.1 動作の概要

17.1.1 各サーバの役割

17.1.2 各機能を構成するプロセスの詳細

17.2.1 DFS領域の割り当て

17.2.2 MapReduce作業領域の割り当て

17.2.3 データの圧縮

17.2.4 タスクスケジューラによるサーバ稼働率の設計

17.3 起動・停止、異常時の動作

17.3.1 各デーモンプロセスの起動・停止

17.3.2 異常発生箇所の特定

17.3.3 JobTrackerプロセス異常時の動作

17.3.4 TaskTrackerプロセス異常時の動作

17.3.5 MDS異常時の動作

17.3.6 AC異常時の動作

17.4.1 デーモンプロセスの監視

17.4.2 メッセージの監視

17.4.3 ログファイルの一覧

17.4.4 ストレージ装置の機能を利用したバックアップ

17.5 ジョブの実行

17.5.1 Hadoopジョブとタスク

17.5.2 Hadoopタスクスケジューラ

17.5.3 Hadoopジョブの起動・停止の詳細

17.5.4 Hadoopジョブのデバッグ

17.5.5 Hadoopジョブのプロパティ設定

17.6 アプリケーションの開発

17.6.1 MapReduceアプリケーションの概要

17.6.2 MapReduceアプリケーション作成時の注意点

17.6.3 MapReduceアプリケーションのテスト

17.7.1 Hadoopのメッセージとその対処

17.7.2 よくある質問やTips

第18章トラブルシューティング

18.1 HA クラスタでトラブルが発生した場合

18.1.1 調査資料の採取

18.2 クローニングでトラブルが発生した場合

18.2.1 調査資料の種類

18.2.2 初期調査資料の採取

18.2.3 詳細調査資料の採取

18.3 DFS、共用ディスクでトラブルが発生した場合

18.3.1 DFSの調査資料採取

18.4 Hadoopでトラブルが発生した場合

18.5 外部プログラム並列実行機能でトラブルが発生した場合

18.5.1 ログの出力例と内容の確認方法

18.5.1.1 ジョブ成功時の例

18.5.1.2 ジョブ失敗時の例（実行する外部プログラムが見つからない例）

18.5.1.3 ジョブ失敗時の例（外部プログラムで実行時エラーが起きている例）

付録A コマンド

A.1 bdpp_addserver

A.2 bdpp_backup

A.3 bdpp_changeimagedir

A.4 bdpp_changeslaves

A.5 bdpp_deployimage

A.6 bdpp_getimage

A.7 bdpp_lanctl

A.8 bdpp_listimage

A.9 bdpp_listserver

A.10 bdpp_prepareserver

A.11 bdpp_removeimage

A.12 bdpp_removeserver

A.13 bdpp_restore

A.14 bdpp_start

A.17 bdpp_submitjob

A.18 bdpp_mkmlist

付録B 定義ファイル

B.4 FJSVrcx.conf

B.5 ipaddr.conf

B.6 initiator.conf

付録C Hadoop 設定パラメーター

C.1 hadoop-env.sh

C.2 core-site.xml

C.3 mapred-site.xml

C.4 pdfs-site.xml

C.5 sysctl.conf

C.6 limits.conf

C.7 HDFS に関する設定（参考情報）

付録D ポート一覧

付録E メッセージ

E.1 インストール時のメッセージ

E.2 セットアップ時のメッセージ

E.3 運用中に出力されるメッセージ

E.3.1 コマンド実行時のメッセージ

E.3.2 その他のメッセージ

付録F 必須パッケージ

付録G ツール

G.1 ジョブヒストリログ可視化ツール

G.1.1 使用手順

G.1.2 実行方法

G.1.3 ジョブヒストリサマリファイル

付録H ユーザーアカウント

メニューの先頭へ