目次の展開や折りたたみを行うには、ブラウザのJavaScriptを有効にしてください。
(目次をすべて閉じる)
表紙
まえがき
第1部 概説編
第1章 概要
1.1 Interstage Big Data Parallel Processing Server とは
1.2 製品の特長
1.2.1 高性能
1.2.2 高信頼性
1.2.3 高運用性
第2章 機能
2.1 独自分散ファイルシステム(DFS)
2.2 マスタサーバ二重化
2.3 スマートセットアップ
2.4 外部プログラムの並列実行
第2部 導入編
第3章 システム構成と設計
3.1 設計の概要
3.2 サーバの設計
3.2.1 サーバ構成
3.2.2 サーバ構成の設計
3.2.3 システム資源の設計
3.2.3.1 静的ディスク容量
3.2.3.2 動的ディスク容量
3.2.3.3 メモリ容量
3.2.3.4 システムパラメーター
3.3 ファイルシステムの設計
3.3.1 ファイルシステム構成
3.3.2 ファイルシステム構成の設計
3.3.2.1 ファイルシステムサイズ、データブロックサイズ、最大ファイルサイズの関係
3.4 ネットワークの設計
3.4.1 ネットワーク構成
3.4.2 ネットワーク構成の設計
3.5 ユーザーアカウントの設計
第4章 システム要件
4.1 ハードウェア要件
4.1.1 ハードウェア条件
4.1.2 拡張カードオプション
4.2 ソフトウェア構成
4.3 ソフトウェア要件
4.3.1 基本ソフトウェア
4.3.2 必須ソフトウェア
4.3.3 排他ソフトウェア
4.3.4 関連ソフトウェア
第5章 システム構築の準備
5.1 サーバの BIOS 設定
5.2 OS 導入時のファイルシステム
5.3 SELinux 機能の無効化
5.4 NetworkManagerの無効化
5.5 システムパラメーターの設定
5.6 ファイアーウォールの設定
5.7 ホスト名の設定
5.8 サーバ名の設定
5.9 業務 LAN のネットワークインターフェースの設定
5.10 システム時刻の設定
5.11 ストレージシステム環境の準備
5.12 ssh の設定
5.13 SNMP トラップデーモンの設定
5.14 ServerView Agent の設定
5.15 IPMI シャットダウンエージェントの設定
5.16 kdump シャットダウンエージェントの設定
5.17 KVM シャットダウンエージェントの設定
5.18 Microsoft LAN Manager モジュールの展開
第6章 インストール
6.1 マスタサーバへのインストール
6.1.1 マスタサーバ機能のインストール
6.1.1.1 構成ファイル bdpp.conf の作成
6.1.1.2 マスタサーバ機能のインストール
6.1.1.3 ソフトウェア製品の修正適用
6.1.2 HA クラスタのセットアップ
6.1.2.1 HA クラスタのセットアップ1
6.1.2.2 HA クラスタのセットアップ2
6.1.2.3 システムの再起動
6.1.3 DFS のセットアップ
6.1.3.1 共用ディスク設定の確認
6.1.3.2 クラスタ状態の確認
6.1.3.3 管理パーティションの初期化
6.1.3.4 管理パーティションへの DFS 管理サーバ情報の登録
6.1.3.5 pdfsfrmd デーモンの起動
6.1.3.6 ファイルシステムの作成
6.1.3.7 MapReduce 実行用のユーザーID の設定
6.1.3.8 DFS クライアント情報の登録
6.1.3.9 マウントポイントの作成および fstab の設定
6.1.3.10 マウント
6.1.3.11 DFS ファイルシステム構成情報の生成
6.1.4 ネットワーク二重化・Hadoop のセットアップ
6.1.4.1 スレーブサーバ定義ファイル slaves の作成
6.1.4.2 ネットワーク二重化・Hadoop のセットアップの実行
6.2 スレーブサーバへのインストール
6.2.1 スレーブサーバ機能のインストール
6.2.1.1 構成ファイル bdpp.conf の作成
6.2.1.2 スレーブサーバ機能のインストール
6.2.1.3 ソフトウェア製品の修正適用
6.2.2 DFS のセットアップ
6.2.2.1 マウントポイントの作成および fstab の設定
6.2.2.2 マウント
6.2.3 ネットワーク二重化・Hadoop のセットアップ
6.2.4 スレーブサーバとの接続確認
6.3 2台目以降のスレーブサーバの追加
6.3.1 物理環境へのスレーブサーバ追加
6.3.1.1 スレーブサーバの導入
6.3.1.2 スレーブサーバの登録
6.3.1.3 ネットワークパラメーター・iSCSI 名の自動設定の登録
6.3.1.4 クローニングイメージの作成
6.3.1.5 システムの再起動
6.3.1.6 クローニング
6.3.1.7 システムの再起動
6.3.2 仮想環境へのスレーブサーバ追加
6.3.2.1 スレーブサーバの導入
6.3.2.2 ネットワークパラメーター・iSCSI 名の自動設定の登録
6.3.2.3 クローニング
6.3.2.4 サーバ名の設定
6.3.2.5 仮想マシンの再起動
6.4 開発実行環境サーバへのインストール
6.4.1 開発実行環境サーバ機能のインストール
6.4.1.1 構成ファイル bdpp.conf の作成
6.4.1.2 開発実行環境サーバ機能のインストール
6.4.1.3 ソフトウェア製品の修正適用
6.4.2 DFS のセットアップ
6.4.2.1 マウントポイントの作成および fstab の設定
6.4.2.2 マウント
6.4.3 Hadoop のセットアップ
6.5 連携サーバへのインストール
6.5.1 連携サーバ機能のインストール
6.5.1.1 構成ファイル bdpp.conf の作成
6.5.1.2 連携サーバ機能のインストール
6.5.1.3 ソフトウェア製品の修正適用
6.5.2 DFS のセットアップ
6.5.2.1 マウントポイントの作成および fstab の設定
6.5.2.2 hadoop グループおよび mapred ユーザーの登録
6.5.2.3 マウント
第7章 アンインストール
7.1 マスタサーバからのアンインストール
7.1.1 ネットワーク二重化のアンセットアップ
7.1.2 DFS のアンセットアップ
7.1.3 HA クラスタのアンセットアップ
7.1.4 マスタサーバ機能のアンインストール
7.1.5 アンインストール後の作業
7.1.5.1 アンインストール後に残るディレクトリおよびファイルについて
7.1.5.2 「アンインストールと管理(ミドルウェア)」のアンインストール
7.1.5.3 アンインストール後に残るOSの設定について
7.1.5.4 アンインストール後に残るユーザーについて
7.1.6 システムの再起動
7.2 スレーブサーバからのアンインストール
7.2.1 ネットワーク二重化のアンセットアップ
7.2.2 DFS のアンセットアップ
7.2.3 スレーブサーバ機能のアンインストール
7.2.4 アンインストール後の作業
7.2.4.1 アンインストール後に残るディレクトリおよびファイルについて
7.2.4.2 アンインストール後に残るOSの設定について
7.2.4.3 アンインストール後に残るユーザーについて
7.2.5 システムの再起動
7.3 開発実行環境サーバからのアンインストール
7.3.1 DFS のアンセットアップ
7.3.2 開発実行環境サーバ機能のアンインストール
7.3.3 アンインストール後の作業
7.3.3.1 アンインストール後に残るディレクトリおよびファイルについて
7.3.3.2 アンインストール後に残るOSの設定について
7.3.3.3 アンインストール後に残るユーザーについて
7.3.4 システムの再起動
7.4 連携サーバからのアンインストール
7.4.1 DFS のアンセットアップ
7.4.2 連携サーバ機能のアンインストール
7.4.3 アンインストール後の作業
7.4.3.1 アンインストール後に残るディレクトリおよびファイルについて
7.4.3.2 アンインストール後に残るユーザーについて
7.4.4 システムの再起動
第3部 運用編
第8章 起動・停止
8.1 起動
8.2 停止
8.3 状態表示
第9章 アプリケーションの開発と登録
9.1 アプリケーションの開発環境
9.2 アプリケーションの開発
9.2.1 アプリケーションの概要
9.2.2 アプリケーションの設計
9.2.3 アプリケーション作成
9.2.4 MapReduce アプリケーション開発のためのリファレンス
9.3 アプリケーションの登録
第10章 ジョブの実行・停止
10.1 入出力データの準備
10.2 ジョブの実行
10.3 ジョブの停止
10.4 ジョブの状態表示
第11章 外部プログラム並列実行機能の使い方
11.1 概要
11.2 外部プログラムと入出力ファイル
11.3 作業手順
11.4 外部プログラムの開発
11.4.1 Mapタスクで使用するファイル
11.4.2 Reduceタスクで使用するファイル
11.5 MapReduce設定ファイル
11.5.1 MapReduce設定ファイルのフォーマット
11.5.2 MapReduce設定ファイルに指定する情報一覧
11.5.3 Hadoopジョブ名の指定
11.5.4 外部プログラムの指定
11.5.5 外部プログラムの再実行を行う復帰値のしきい値
11.5.6 ジョブをエラーとして扱う復帰値のしきい値
11.5.7 環境変数の指定
11.5.8 入出力ファイルの指定
11.5.9 出力データファイル格納基準ディレクトリの上書きの指定
11.5.10 キー情報の指定
11.5.11 Shuffle&sort入力データの扱いの指定
11.5.12 Map出力データファイル自動ソートの指定
11.5.13 処理レコード件数のログを取得する
11.5.14 カレントディレクトリの退避の指定
11.5.15 バッファサイズの指定
11.5.16 主キー一覧ファイルの指定
11.5.17 一意振り分けの指定
11.5.18 一意振り分けにおけるキーの上限数の指定
11.5.19 Mapタスク複数ファイル出力モード
11.6 Hadoopジョブの実行
11.6.1 実行に必要な資源の配付
11.6.2 Hadoop入力データファイルの準備
11.6.3 外部プログラムの並列実行
11.6.4 外部プログラムのエラーと復帰値
11.6.5 外部プログラムが出力するファイル
11.7 Shuffle&sortの振り分け処理について
11.7.1 ハッシュ値により振り分ける
11.7.2 キー分布を考慮し自動的に最適な条件に振り分ける
11.7.3 キーごとに異なるタスクに振り分ける
11.7.4 主キー一覧ファイル
11.7.4.1 主キー一覧ファイル作成コマンド
11.7.4.2 テキストエディタを使用した主キー一覧ファイルの作成
11.7.4.3 スペアReduceタスク
11.8 サンプルプログラム
11.8.1 サンプル1 CSVファイルの突合せ処理
11.8.2 サンプル2 CSVファイルのフィルタリングと集計処理
第12章 ジョブの実行ユーザーの管理
12.1 ジョブ実行ユーザーの追加
12.1.1 ユーザーアカウントの作成
12.1.2 DFS上にユーザーのホームディレクトリを作成
12.1.3 MapReduceジョブユーザー認証キーの設定
12.2 ジョブ実行ユーザーの削除
12.2.1 DFS上に作成したユーザーのホームディレクトリの削除
12.2.2 ユーザーアカウントの削除
12.3 OSS実行時の環境変数の設定
12.3.1 ユーザープロファイルへの追加
第13章 スレーブサーバの追加と削除
13.1 スレーブサーバの追加
13.1.1 ホスト名の設定
13.1.2 DFS クライアント情報の登録
13.1.3 クローニングによる追加
13.1.4 Hadoop の停止
13.1.5 再マウント
13.1.6 スレーブサーバ定義ファイルの編集および反映
13.1.7 Hadoop 設定パラメーターの変更
13.1.8 Hadoop の起動
13.2 スレーブサーバの削除
13.2.1 Hadoop の停止
13.2.2 スレーブサーバ定義ファイルの編集および反映
13.2.3 Hadoop 設定パラメーターの変更
13.2.4 Hadoop の起動
13.2.5 アンマウントおよび fstab の設定解除
13.2.6 DFS クライアント情報の削除
第14章 ストレージシステムの追加と削除
14.1 ストレージシステムの追加
14.1.1 Hadoop の停止
14.1.2 アンマウント
14.1.3 パーティションの追加
14.1.4 DFS ファイルシステム構成情報の再作成と配付
14.1.5 マウント
14.1.6 Hadoop の起動
14.2 ストレージシステムの削除
14.2.1 Hadoop の停止
14.2.2 アンマウント
14.2.3 ファイルシステムの削除
14.2.4 ファイルシステムの作成
14.2.5 MapReduce 実行用のユーザーID の設定
14.2.6 DFS ファイルシステム構成情報の再作成と配付
14.2.7 マウント
14.2.8 Hadoop用のディレクトリ作成
14.2.9 Hadoop の起動
第15章 バックアップ・リストア
15.1 バックアップ
15.1.1 バックアップコマンドによって退避される資源
15.1.2 バックアップ方法
15.1.2.1 マスタサーバ、開発実行環境サーバ、連携サーバのバックアップ
15.1.2.2 スレーブサーバのバックアップ
15.2 リストア
15.2.1 リストア方法
15.2.1.1 マスタサーバ、開発実行環境サーバ、連携サーバのリストア
15.2.1.2 スレーブサーバのリストア
第16章 異常時の操作
16.1 マスタサーバ異常時の操作
16.1.1 マスタサーバが二重化構成の場合
16.1.2 マスタサーバが二重化構成でない場合
16.2 スレーブサーバ異常時の操作
16.3 開発実行環境サーバ異常時の操作
16.4 連携サーバ異常時の操作
16.5 ファイルシステム異常時の操作
16.6 異常の確認方法
第17章 システムの設計・開発・運用における前提知識や役立つ情報
17.1 動作の概要
17.1.1 各サーバの役割
17.1.2 各機能を構成するプロセスの詳細
17.2 設計
17.2.1 DFS領域の割り当て
17.2.2 MapReduce作業領域の割り当て
17.2.3 データの圧縮
17.2.4 タスクスケジューラによるサーバ稼働率の設計
17.3 起動・停止、異常時の動作
17.3.1 各デーモンプロセスの起動・停止
17.3.2 異常発生箇所の特定
17.3.3 JobTrackerプロセス異常時の動作
17.3.4 TaskTrackerプロセス異常時の動作
17.3.5 MDS異常時の動作
17.3.6 AC異常時の動作
17.4 運用
17.4.1 デーモンプロセスの監視
17.4.2 メッセージの監視
17.4.3 ログファイルの一覧
17.4.4 ストレージ装置の機能を利用したバックアップ
17.5 ジョブの実行
17.5.1 Hadoopジョブとタスク
17.5.2 Hadoopタスクスケジューラ
17.5.3 Hadoopジョブの起動・停止の詳細
17.5.4 Hadoopジョブのデバッグ
17.5.5 Hadoopジョブのプロパティ設定
17.6 アプリケーションの開発
17.6.1 MapReduceアプリケーションの概要
17.6.2 MapReduceアプリケーション作成時の注意点
17.6.3 MapReduceアプリケーションのテスト
17.7 FAQ
17.7.1 Hadoopのメッセージとその対処
17.7.2 よくある質問やTips
第18章 トラブルシューティング
18.1 HA クラスタでトラブルが発生した場合
18.1.1 調査資料の採取
18.2 クローニングでトラブルが発生した場合
18.2.1 調査資料の種類
18.2.2 初期調査資料の採取
18.2.3 詳細調査資料の採取
18.3 DFS、共用ディスクでトラブルが発生した場合
18.3.1 DFSの調査資料採取
18.4 Hadoopでトラブルが発生した場合
18.5 外部プログラム並列実行機能でトラブルが発生した場合
18.5.1 ログの出力例と内容の確認方法
18.5.1.1 ジョブ成功時の例
18.5.1.2 ジョブ失敗時の例(実行する外部プログラムが見つからない例)
18.5.1.3 ジョブ失敗時の例(外部プログラムで実行時エラーが起きている例)
付録A コマンド
A.1 bdpp_addserver
A.2 bdpp_backup
A.3 bdpp_changeimagedir
A.4 bdpp_changeslaves
A.5 bdpp_deployimage
A.6 bdpp_getimage
A.7 bdpp_lanctl
A.8 bdpp_listimage
A.9 bdpp_listserver
A.10 bdpp_prepareserver
A.11 bdpp_removeimage
A.12 bdpp_removeserver
A.13 bdpp_restore
A.14 bdpp_start
A.15 bdpp_stat
A.16 bdpp_stop
A.17 bdpp_submitjob
A.18 bdpp_mkmlist
付録B 定義ファイル
B.1 bdpp.conf
B.2 slaves
B.3 clone.conf
B.4 FJSVrcx.conf
B.5 ipaddr.conf
B.6 initiator.conf
付録C Hadoop 設定パラメーター
C.1 hadoop-env.sh
C.2 core-site.xml
C.3 mapred-site.xml
C.4 pdfs-site.xml
C.5 sysctl.conf
C.6 limits.conf
C.7 HDFS に関する設定(参考情報)
付録D ポート一覧
付録E メッセージ
E.1 インストール時のメッセージ
E.2 セットアップ時のメッセージ
E.3 運用中に出力されるメッセージ
E.3.1 コマンド実行時のメッセージ
E.3.2 その他のメッセージ
付録F 必須パッケージ
付録G ツール
G.1 ジョブヒストリログ可視化ツール
G.1.1 使用手順
G.1.2 実行方法
G.1.3 ジョブヒストリサマリファイル
付録H ユーザーアカウント
メニューの先頭へ