1.1.1 背景

スマートフォン、タブレット端末などのスマートデバイスや各種センサーから収集されるデータは、大量であるとともに、形式や構造がバラバラであり、しかも刻々と増え続けています。

これらの「ビッグデータ」と呼ばれるデータは、先進企業を中心に活用が進み、これまで得られなかったビジネスメリットを続々と創出していることから、大きな注目を集めています。

ビッグデータの特長

ビッグデータには次の特長があります。

大量のデータ
TB(テラバイト)～PB(ペタバイト)に及ぶ大容量で多数のデータ
多様なデータ
様々な形式のデータ(構造化データ(データベースのデータ)・非構造化データ(センサー情報、アクセスログ情報などのテキストデータ) ・半構造化データ(構造化データ、非構造化データの両方の性質を持つデータ))
高頻度で発生するデータ
センサーなどから刻々と新しく発生するデータ
リアルタイムに使いたいデータ
短時間で分析処理を行い、リアルタイムに利活用

上記ビッグデータ処理のうち、(1)大量データ処理、(2)多様なデータ解析が可能なアプリケーションとして、「Apache Hadoop(*1)」が業界標準として、広く利用されてきています。

*1 Apache Hadoop: Apache Software Foundation(ASF) が開発したビッグデータの効率的な分散・並列処理を行うオープンソースソフトウェア