1.1 Interstage Big Data Parallel Processing Server 拡張機能「Impala」とは

Interstage Big Data Parallel Processing Server 拡張機能「Impala」は、Interstage Big Data Parallel Processing Server上でインメモリ分散クエリエンジン「Impala」を起動し、独自分散ファイルシステム(DFS)に保存されているデータを対象に、SQLライクなステートメントを使ってアドホックなクエリを実行することができます。

Impalaは、既存のMapReduceを高速化するのではなく、完全に新しい分散クエリエンジンです。Hadoopとネイティブに連携し、データノード上のデータに直接アクセスすることによってパフォーマンス上のボトルネックを減らし、また中間データやメモリから溢れたデータもディスクに書き込まずメモリで処理します。そのため、Hiveよりも圧倒的に高速で、リアルタイムにデータをやり取りすることができます。