大量データを分割かつ、数十~数千台のサーバに分散配置して並列処理することによって、大量のデータに対するバッチ処理を短時間で処理する技術であり、次の特徴があります。
低コスト
比較的安価なサーバを多数使用して並列処理することで、経済的なシステムを構成できます。
高可用性
分割されたデータは3か所以上に分散配置されることによって、並列処理を実行するサーバ(スレーブサーバ)は同時に2台停止しても、処理を続行することができます。
スケールアウト
スレーブサーバの追加により、容易にスケールアウトできます。
文字列検索などの単純な分析から、画像解析などの高度な分析ロジックに対応する並列分析処理アプリケーション(MapReduceアプリケーション)を開発することができ、多様な形式のデータを処理することができます。