ページの先頭行へ戻る
Big Data Integration ServerV1.1.0 利用ガイド
FUJITSU Software

3.1.2 業務実行時に必要なハードウェア容量

使用する機能に応じて、必要なハードウェア容量を見積ります。

3.1.2.1 収集機能を使用する場合

収集機能を使用するにあたり、処理に必要な資源について説明します。

3.1.2.1.1 ログ収集のメモリ見積り

Fluentdのメモリ見積りについて説明します。

Fluentdのメモリ使用量は100MB以上です。使用するプラグインによってメモリ使用量が増加します。

  • Buffer (memory)プラグインを使用した場合のメモリ使用量

    以下のデータ量がメモリに保存されます。

    各設定項目についてはFluentdのオンラインドキュメントを参照してください。

    buffer_chunk_limit(デフォルト:8MB) × buffer_queue_limit(デフォルト:256) × プロセス数(デフォルト:1)
3.1.2.1.2 ログ収集のディスク見積り

Fluentdのディスク見積りについて説明します。

Fluentdのディスク使用量は200MB以上です。ログファイル、使用するプラグインによって、ディスク使用量が増加します。

  • ログファイルのディスク使用量

    以下のlogrotateの設定例では、ログが30日分保存されます。

    /var/log/td-agent/logs/td-agent.log {
      daily
      rotate 30
      compress
      delaycompress
      notifempty
      create 640 td-agent td-agent
      sharedscripts
      postrotate
        pid=/var/run/td-agent/td-agent.pid
        if [ -s "$pid" ]
        then
          kill -USR1 "$(cat $pid)"
        fi
      endscript
    }
  • Buffer (file)プラグインを使用した場合のディスク使用量

    以下のデータ量がディスクに保存されます。

    各設定項目についてはFluentdのオンラインドキュメントを参照してください。

    buffer_chunk_limit(デフォルト:8MB) × buffer_queue_limit(デフォルト:256) × プロセス数(デフォルト:1)
3.1.2.1.3 メッセージングのメモリ見積り

Apache Kafkaのメモリ見積りについて説明します。

以下の設定値の合計(初期状態は約140MB)よりも大きい値が必要です。

Javaヒープサイズは4GB以上を推奨します。

offsets.load.buffer.size
 + replica.socket.receive.buffer.bytes
 + socket.receive.buffer.bytes
 + socket.send.buffer.bytes
 + transaction.state.log.load.buffer.size
 + log.cleaner.dedupe.buffer.size
 + log.cleaner.io.buffer.size

各設定項目およびJavaヒープの設定方法についてはApache Kafkaのオンラインドキュメントを参照してください。

3.1.2.1.4 メッセージングのディスク見積り

Apache Kafkaのディスク見積りについて説明します。

見積り式を以下に示します。

topicに必要な容量 = replication-factorの指定値 × 1日あたりのメッセージ量 × 保存日数(注)
必要なディスク容量 = 全topicに必要な容量 ÷ Broker数

注) 保存日数に関わる設定項目は以下です。
log.retention.ms、log.retention.bytes、log.segment.bytes

各設定項目についてはApache Kafkaのオンラインドキュメントを参照してください。

3.1.2.2 データ管理機能を使用する場合

データ管理機能を使用するにあたり、処理に必要な資源について説明します。

スキーマレス加工を使用する場合

本機能を使用するにあたり、処理に必要なメモリを見積る必要があります。

参照

本機能を使用する場合の資源の見積りについては“加工編 導入・運用ガイド”の“メモリ見積り式”を参照してください。

並列分散処理を使用する場合

本機能を使用するにあたり、処理に必要なメモリを見積る必要があります。

【マスタサーバ】

マスタサーバの搭載メモリサイズは、以下の見積もり式より見積もってください。

OSで利用するメモリ容量 + ResourceManagerのヒープサイズ(注) + NameNodeのヒープサイズ(注) + 1GB

注) ResourceManagerのヒープサイズおよびNameNodeのヒープサイズの見積もりは、“分散処理編 ユーザーズガイド”の“チューニングパラメーター”を参照してください。

【スレーブサーバ】

スレーブサーバの搭載メモリサイズは、以下の見積もり式より見積もってください。

OSで利用するメモリ容量 + NodeManagerのヒープサイズ(注1) + DataNodeのヒープサイズ(注1) + yarn.scheduler.maximum-allocation-mbパラメーターの値(注2)

注1) NodeManagerのヒープサイズおよびDataNodeのヒープサイズの見積もりは、“分散処理編 ユーザーズガイド”の“チューニングパラメーター”を参照してください。
注2) 並列分散処理で実行するアプリケーションで利用するメモリサイズ × 1スレーブサーバあたりの並列度

【開発実行環境サーバ】

スレーブサーバの搭載メモリサイズは、2GB以上です。

3.1.2.3 検索機能を使用する場合

検索機能を使用するにあたり、処理に必要な資源について説明します。

インメモリ検索を使用する場合

本機能を使用するにあたり、処理に必要な資源を見積る必要があります。

参照

本機能を使用する場合の資源の見積りについては“検索編 導入・運用ガイド”の“資源の見積り”を参照してください。

ディスク検索を使用する場合

本機能を使用するにあたり、処理に必要なメモリを見積る必要があります。

参照

本機能を使用する場合の資源の見積りについては“加工編 導入・運用ガイド”の“メモリ見積り式”を参照してください。