Cascadingのインストールのメモ。
CascadingをWindowsにインストールしてみる。[2010-04-05]
アーカイブのファイル名に「hadoop-0.19.0+」と付いているので、たぶんHadoop0.19.0以降に対応しているという意味だろう。実際のところ、Hadoop0.20.xでも動作する。
Eclipseのビルドパスには、CASCADING_HOME/cascading-1.0.18.jarを追加する。
(ソース参照の為にはCASCADING_HOME/srcを指定する)
実行時には他のライブラリーも必要(→hadoop-env.shの設定)だが、コンパイルするだけならこれでOK。
ライブラリー | 内容 |
---|---|
CASCADING_HOME/cascading-x.y.z.jar | Cascading本体。コンパイルと実行に必要。 |
CASCADING_HOME/lib/jgrapht-jdk1.6.jar | 実行に必要。(グラフを生成するらしい) |
CASCADING_HOME/lib/janino-2.5.15.jar | ExpressionFilter等のExpression系のクラスを実行するのに必要。 |
CASCADING_HOME/cascading-test-x.y.z.jar | Cascadingの単体試験(JUnit)用クラスが入っている。 |
CascadingのアプリをHadoopの分散環境で実行するには、Cascadingのライブラリーを各データノードにインストールしておく必要がある。
ライブラリー | 内容 |
---|---|
CASCADING_HOME/cascading-core-x.y.z.jar | Cascading本体。 |
CASCADING_HOME/lib/jgrapht-jdk1.6.jar |
上記のライブラリーを、全データノードのHADOOP_HOME/libの直下にコピーする。
コピーしたら、そのデータノードのTaskTrackerを再起動しておく。
# /etc/init.d/hadoop-0.20-tasktracker restart
CascadingアプリをHadoopの分散環境で実行するには、起動するマシン(例えばNameNode)にCascadingのライブラリー一式をインストールしておき、
環境変数HADOOP_CLASSPATHにそれらのライブラリーを指定する。
export HADOOP_CLASSPATH+=:"$CASCADING_HOME/*":"$CASCADING_HOME/lib/*" hadoop jar Cascadingアプリ.jar クラス名 引数…