1.3.2 Mapタスク

Mapタスクでは、一定サイズに単純分割されたHadoop入力データファイルをCOBOLファイルとして読み込むことができます。このMapタスクに割り当てられたファイルのことを「Map入力データファイル」といいます。必要に応じてレコードを加工したあと、後続のShuffle&sortにCOBOLファイルとして渡します。この渡すファイルのことを「Map出力データファイル」といいます。

Mapタスクでは、MapReduceフレームワークによって単純に分割されたファイルが入力になります。このため、Mapタスクではすべてのレコードを一律に加工する処理など、入力データを分割して処理しても問題ないものを実装します。

参考

Mapタスクは省略することもできます。省略した場合、Hadoop入力データファイルがそのままMap出力データファイルとしてShuffle&sortに受け渡されます。