ページの先頭行へ戻る
Interstage Big Data Parallel Processing Server V1.2.0 ユーザーズガイド
FUJITSU Software

11.5.10 キー情報の指定

Shuffle&sortで使用するキー情報には、データのグループ化に使用される「主キー」と、並び替えに使用される「副キー」があります。主キーおよび副キーは複数指定可能です。キーごとに属性や並び順(昇順・降順)を指定することができます。

キー情報は、Hadoop入力データファイルごとに指定する必要があります。

設定内容

設定名(*)
(NAME要素)

設定値
(VALUE要素)

備考

主キー

extjoiner.sortkey.nn.main

カンマ区切りで

キー属性,カラム目,並び順

または

キー属性,カラム目:開始オフセット-長さ,並び順

を指定します

キー属性

CSVまたはCSVN

CSV:キーを文字として評価します

CSVN:キーを数値として評価します

カラム目:開始オフセット-長さ

キーが存在するカラム目と、カラム内にあるキーの先頭オフセットおよび長さをバイト長で指定します

開始オフセットのみを指定した場合(-長さが指定されていない場合)は、カラムの末尾までを長さと見なします

並び順

A(昇順)またはD(降順)を指定します

省略した場合、昇順と見なします

Shuffle&sortを使用する場合、指定必須

主キーを指定します

複数指定する場合は/(スラッシュ)で区切って指定します

このキーでグループ化されたデータが各Reduceタスクに渡されます

副キー

extjoiner.sortkey.nn.sub

省略可

副キーを指定します。

複数指定する場合は/(スラッシュ)で区切って指定します

カラムは0番目から始まります

データ自体にセパレータ文字を含めたい場合は、カラムをダブルクォーテーションで囲む必要があります

ただし、浮動フィールド指定にtrueが指定されている場合、フィールドを囲むダブルクォーテーションを考慮しません

指定例

<name> extjoiner.sortkey.01.main</name>
<value>CSV,2,A</value>
<name> extjoiner.sortkey.01.sub</name>
<value>CSVN,3,D/CSVN,4:2-5,D </value>
  • 主キーにCSV形式データの3カラム目、文字として評価、昇順

  • 1番目の副キーにCSV形式データの4カラム目、数値として評価、降順

  • 2番目の副キーにCSV形式データの5カラム目にあるオフセット2バイト目から長さ5バイト、数値として評価、降順