Hadoopで使用するファイルシステムであるHDFSにおいてクラスタを構成するノードの名称です。Hadoopで処理されるビッグデータはDataNode上にブロック単位で分散・複製され配置されます。
HDFS(Hadoop Distributed File System)
Hadoopで使用する分散ファイルシステムです。ビッグデータを複数のDataNodeと呼ばれるノードにブロック単位で分散・複製して配置し、それをNameNodeと呼ばれるノードが管理します。
Hadoop の中核となる並列分散処理技術です。分散された情報をそれぞれ並列処理し、その処理結果を集約します。構成は大きく分けて、各クラスタごとの処理を受け持つTaskTrackerと、全体の処理を管理しTaskTrackerに処理を割り振るJobTrackerから成り立っています。
DFS上のシステム用の領域に出力されるジョブヒストリログです。
システム用ジョブヒストリログは、ファイル出力後30日間保存されます。30日間より過去のファイルはシステムによって削除されます。
システム用ジョブヒストリログは、デフォルトではDFS上の以下のディレクトリ配下に出力されます。
/mapred/history/done
Hadoopジョブの実行結果や実行したタスク数などの実行履歴を記載したログファイルです。
ジョブヒストリログには、システム用ジョブヒストリログとユーザー用ジョブヒストリログの2種類のログがあります。
インターネット上で、様々な人々が様々なコンテンツ(テキスト、音声、ビデオ、etc.)を交換・共有することで生まれるコミュニケーション社会を提供するサービスやアプリケーションを、旧来の情報媒体(新聞、テレビ、etc.)と対比してソーシャルメディアと呼んでいます。
Hadoopジョブの結果出力ディレクトリ配下に出力されるジョブヒストリログです。
システム用ジョブヒストリログのようにシステムによって削除されることはありません。
ユーザー用ジョブヒストリログは、デフォルトでは以下のディレクトリ配下に出力されます。
{Hadoopジョブ結果出力ディレクトリ}/_logs/history
その一か所に問題があると全体にとって致命的になる場所を単一障害点と呼びます。HDFSでは、DataNode全体を管理するNameNodeに障害が起きると、HDFSが使用できなくなります。そのため、NameNodeはHDFSの単一障害点となります。