S-JIS[2012-06-29] 変更履歴

Huahin Frameworkメモ

Huahin(ほあひん) Frameworkは、ブレインパッド社の内部で使われているフレームワークをOSS化したもの。
HadoopのMapReduceのラッパー。


Huahin Frameworkの概要

Huahin FrameworkはMapReduceをラップ(隠蔽)するフレームワーク。
Pig/Hive(簡単に記述)とAsakusa Framework(複雑なバッチを記述)の中間くらいの位置付けらしい

Huahin(「ほあひん」と読むらしい)という名前は、タイの地名から取ってきたそうだ

Huahin Core
MapReduceをラップするライブラリー本体。
Huahin Manager
MapReduceジョブの操作をREST APIで実行できるようにするもの。
(普通は「hadoop job」系コマンドで実行する)

サンプルを見ると、Cascadingと似た考え方のようだ。
つまり、レコードをフィールドで区切り、各フィールドに名前を付ける。そのフィールド名でデータを取得・出力する。
ただしCascadingよりシンプル。

簡便さの順に並べると、こんな感じかな?
HivePig<Huahin Framework<CascadingAsakusa Framework

Pig/Hiveで出来ないことをさらっと書ける目的で作られたのだろう。
それが具体的にどんな事なのかは分からないけど、サンプルを見る限り、グループ毎のトップ10とかだろうか。
全レコードに対するトップ10ならHiveでも簡単だが、グループ毎だとHiveでは出来なかった気がする。
Pigならgroupとfoearchのネストを使って実現できるけど、Pigの中ではややこしい部類かな。


技術メモへ戻る
メールの送信先:ひしだま