Huahin Frameworkは、ブレインパッド社の内部で使われているフレームワークをOSS化したもの。
HadoopのMapReduceのラッパー。
Huahin FrameworkはMapReduceをラップ(隠蔽)するフレームワーク。
Pig/Hive(簡単に記述)とAsakusa Framework(複雑なバッチを記述)の中間くらいの位置付けらしい。
Huahin(「ほあひん」と読むらしい)という名前は、タイの地名から取ってきたそうだ。
サンプルを見ると、Cascadingと似た考え方のようだ。
つまり、レコードをフィールドで区切り、各フィールドに名前を付ける。そのフィールド名でデータを取得・出力する。
ただしCascadingよりシンプル。
簡便さの順に並べると、こんな感じかな?
Hive<Pig<Huahin
Framework<Cascading<Asakusa Framework
Pig/Hiveで出来ないことをさらっと書ける目的で作られたのだろう。
それが具体的にどんな事なのかは分からないけど、サンプルを見る限り、グループ毎のトップ10とかだろうか。
全レコードに対するトップ10ならHiveでも簡単だが、グループ毎だとHiveでは出来なかった気がする。
Pigならgroupとfoearchのネストを使って実現できるけど、Pigの中ではややこしい部類かな。