ページの先頭行へ戻る
Interstage Big Data Parallel Processing Server V1.2.0 ユーザーズガイド
FUJITSU Software

用語集

Apache Hadoop

Apache Software Foundation(ASF) が開発したオープンソースの Hadoop ソフトウェアです。

DataNode

Hadoopで使用するファイルシステムであるHDFSにおいてクラスタを構成するノードの名称です。Hadoopで処理されるビッグデータはDataNode上にブロック単位で分散・複製され配置されます。

Hadoop

ビッグデータの効率的な分散・並列処理を行う技術の名称です。大きく分けて、分散ファイルシステムである HDFS と並列分散処理技術である、MapReduceから成ります。

HDFS(Hadoop Distributed File System)

Hadoopで使用する分散ファイルシステムです。ビッグデータを複数のDataNodeと呼ばれるノードにブロック単位で分散・複製して配置し、それをNameNodeと呼ばれるノードが管理します。

iSCSI-LAN

サーバとストレージシステム間の iSCSI 接続用のネットワークを指します。

MapReduce

Hadoop の中核となる並列分散処理技術です。分散された情報をそれぞれ並列処理し、その処理結果を集約します。構成は大きく分けて、各クラスタごとの処理を受け持つTaskTrackerと、全体の処理を管理しTaskTrackerに処理を割り振るJobTrackerから成り立っています。

NameNode

Hadoopで使用するファイルシステムであるHDFSを管理するノードの名称です。

PB(ペタバイト)

データの大きさの単位で、10の15乗バイトを示します。

TB(テラバイト)

データの大きさの単位で、10の12乗バイトを示します。

イメージ情報

仮想イメージの構成を表現した情報です。
システムテンプレートを作成する際に必要な情報で、仮想イメージ1つに対して、1つのイメージ情報を作成する必要があります。

クラスタインタコネクト(CIP) LAN

HA クラスタ構成のマスタサーバ(プライマリ・セカンダリ)間で死活監視を行うためのネットワークを指します。

クローニングマスタ

システムディスクの内容からサーバの固有情報 (システムノード名やIPアドレス) を取り除いた状態で採取したものです。配備のときに、仮想サーバのシステムディスクにコピーされます。

システム用ジョブヒストリログ

DFS上のシステム用の領域に出力されるジョブヒストリログです。

システム用ジョブヒストリログは、ファイル出力後30日間保存されます。30日間より過去のファイルはシステムによって削除されます。

システム用ジョブヒストリログは、デフォルトではDFS上の以下のディレクトリ配下に出力されます。

/mapred/history/done

ジョブヒストリログ

Hadoopジョブの実行結果や実行したタスク数などの実行履歴を記載したログファイルです。

ジョブヒストリログには、システム用ジョブヒストリログとユーザー用ジョブヒストリログの2種類のログがあります。

スレーブサーバ

ブロック化されたデータファイルにアクセスするサーバです。複数のスレーブサーバが並列分散処理することによって、短時間に分析処理を行います。

センシングデータ

各種センサーから送られてくるデータのことを指します。

ソーシャルメディア

インターネット上で、様々な人々が様々なコンテンツ(テキスト、音声、ビデオ、etc.)を交換・共有することで生まれるコミュニケーション社会を提供するサービスやアプリケーションを、旧来の情報媒体(新聞、テレビ、etc.)と対比してソーシャルメディアと呼んでいます。

マスタサーバ

データファイルをブロック化して一元管理するサーバです。分析処理のジョブ実行要求を受け付け、スレーブサーバに対して並列分散処理を実行させます。

ユーザー用ジョブヒストリログ

Hadoopジョブの結果出力ディレクトリ配下に出力されるジョブヒストリログです。

システム用ジョブヒストリログのようにシステムによって削除されることはありません。

ユーザー用ジョブヒストリログは、デフォルトでは以下のディレクトリ配下に出力されます。

{Hadoopジョブ結果出力ディレクトリ}/_logs/history

開発実行環境サーバ

並列分散を行うアプリケーション(MapReduce)の開発・実行を行うサーバです。

管理 LAN

主にスマートセットアップにおけるクローニング処理を行うためのネットワークを指します。

業務 LAN

マスタサーバ、スレーブサーバ間の並列分散処理を行うためのネットワークを指します。

単一障害点

その一か所に問題があると全体にとって致命的になる場所を単一障害点と呼びます。HDFSでは、DataNode全体を管理するNameNodeに障害が起きると、HDFSが使用できなくなります。そのため、NameNodeはHDFSの単一障害点となります。

連携サーバ

Linux 標準のファイルアクセスインターフェースを使用してデータファイルにアクセスする既設のサーバです。