S-JIS[2011-12-25/2011-12-26] 変更履歴

Hadoop Streaming

HadoopのStreamingについて。

Streamingの概要 Streamingの実行 Streamingプログラムサンプル（awk）	Hadoop APIドキュメントのHadoop Streaming お題目うぉっちのHadoop Streaming メモ
	サンプル（C言語）

Streamingの概要

Hadoopストリーミングは、Java以外の言語のMapper・Reducerプログラムを実行する方法。

データは標準入出力を介して受け渡す。
つまり、標準入力からデータ（テキスト）を受け取り、標準出力にデータを出力することでHadoop側とやりとりする。

したがって、標準入出力が扱える言語なら何でも使用できる。

Streamingの実行方法

Hadooopストリーミングでは、Streaming用のJavaプログラムにMapper・Reducerプログラムを指定する形で実行する。

CDH3の場合、以下のように指定する。

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
-mapper   Mapperプログラムのファイル名 \
-combiner Combinerプログラムのファイル名 \
-reducer  Reducerプログラムのファイル名 \
-input  入力ファイル名 \
-output 出力ディレクトリー名 \
-file ローカルファイルパス1 -file ローカルファイルパス2 …

Combinerが無い場合は-combinerの指定は省略可能。
（Hadoop0.21から-combinerにJavaクラス以外を指定できるようになったらしい。CDH3でも指定できる）

Mapper・Combiner・Reducerのプログラムは、ローカル（hadoopコマンドを実行するマシン）上に置いておき、
-fileでそのパスを指定することで各データノードに（HDFSを経由して）コピーされ、タスクの実行時に参照することが出来る。
プログラムが3ファイルあったら、-fileも3つ指定する。
（単独環境で実行する場合は-fileを指定しなくても動作するが、分散環境で動かすには-fileが必須）

他にも色々なオプションがある。-infoでオプション一覧が表示される。

$ hadoop jar /usr/lib/hadoop/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar -info

map.awk：

{ for(i = 1; i <= NF; i++) print $i, 1 }

※HiveのWordCountで使ったスクリプトとほぼ全く同じ。

reduce.awk：

BEGIN {
	OFS = "\t";
	old = ""; sum = 0;
}
{
	if ($1 != old) {
		output(old, sum);
		old = $1; sum = 0;
	}
	sum += $2;
}
END {
	output(old, sum);
}

function output(key, count) {
	if (count != 0) {
		print key, count;
	}
}

run.sh：

SRC=wordcount/input
DST=wordcount/output
MAP=map.awk
RED=reduce.awk

hadoop fs -rmr $DST

hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar \
-mapper   "awk -f $MAP" \
-combiner "awk -f $RED" \
-reducer  "awk -f $RED" \
-input  $SRC \
-output $DST \
-file $MAP \
-file $RED

Hadoop目次へ戻る / 技術メモへ戻る

メールの送信先：ひしだま

Hadoop Streaming

Streamingの概要

Streamingの実行方法

Streamingのプログラミング

Mapper

Reducer

Combiner

Streamingサンプル（awk）

map.awk：

reduce.awk：

run.sh：