Hadoopから、外部プログラム(Hadoop外で動作する通常のプログラム)を呼び出し、並列に実行する機能を提供します。
業務処理には、データ量や処理内容などに依存して、Hadoop上で並列に実行した方が性能的に有利な処理と単独で実行した方が有利な処理とが混在しています。これは、Hadoopで処理するには相応の内部コスト(データを分散・集約する、複数のプロセスを起動するなど)が上乗せされるため、それが実際の処理性能の向上の度合いとのトレードオフとなるためです。
また、Hadoopで処理するにはHadoopの機能を理解し、固有のAPIを利用したHadoop専用のプログラムを作成する必要があります。しかし、結果的にHadoopで処理しない方が効率的であった場合には、Hadoop外で動作する通常のプログラムを別途作成しなければなりません。
一方、時間とともに処理データ量が増加するなどの理由で、これまで単独で処理していた業務を並列に処理したい場合には、Hadoop専用のプログラムを新たに作成する必要があります。
本機能は、上記のような課題を解決し、
Hadoop専用のプログラムに関するスキルを習得しなくても並列処理プログラムの作成・実行が可能
作成したプログラムは、処理時間や処理データ量などに応じて単独でも並列でも実行が可能
といった利点があります。