S-JIS[2011-12-25] 変更履歴

Cascadingインストール

Cascadingのインストールのメモ。

 

Windowsへのインストール

CascadingをWindowsにインストールしてみる。[2010-04-05]

  1. Hadoopをインストールしておく。
  2. Cascadingのダウンロードページから、Cascading(final)を選択する。(リンク名は「Google Code」)
  3. アーカイブファイルをダウンロードする。(cascading-1.0.18-hadoop-0.19.0+.tgz)
  4. アーカイブを適当な場所に展開する。(自分は、HADOOP_HOMEに合わせてC:\cygwin\usr\local\cascading〜とした)
    以降、C:\cygwin\usr\local\cascading〜をCASCADING_HOMEと呼ぶことにする。

アーカイブのファイル名に「hadoop-0.19.0+」と付いているので、たぶんHadoop0.19.0以降に対応しているという意味だろう。実際のところ、Hadoop0.20.xでも動作する。

Eclipseのビルドパスには、CASCADING_HOME/cascading-1.0.18.jarを追加する。
ソース参照の為にはCASCADING_HOME/srcを指定する)
実行時には他のライブラリーも必要(→hadoop-env.shの設定)だが、コンパイルするだけならこれでOK。

ライブラリー 内容
CASCADING_HOME/cascading-x.y.z.jar Cascading本体。コンパイルと実行に必要。
CASCADING_HOME/lib/jgrapht-jdk1.6.jar 実行に必要。(グラフを生成するらしい)
CASCADING_HOME/lib/janino-2.5.15.jar ExpressionFilter等のExpression系のクラスを実行するのに必要。
CASCADING_HOME/cascading-test-x.y.z.jar Cascadingの単体試験(JUnit)用クラスが入っている。

動作確認:サンプルを動かしてみる


運用環境構築

CascadingのアプリをHadoopの分散環境で実行するには、Cascadingのライブラリーを各データノードにインストールしておく必要がある。

ライブラリー 内容
CASCADING_HOME/cascading-core-x.y.z.jar Cascading本体。
CASCADING_HOME/lib/jgrapht-jdk1.6.jar  

上記のライブラリーを、全データノードのHADOOP_HOME/libの直下にコピーする。
コピーしたら、そのデータノードのTaskTrackerを再起動しておく。

# /etc/init.d/hadoop-0.20-tasktracker restart

運用環境での実行

CascadingアプリをHadoopの分散環境で実行するには、起動するマシン(例えばNameNode)にCascadingのライブラリー一式をインストールしておき、
環境変数HADOOP_CLASSPATHにそれらのライブラリーを指定する。

export HADOOP_CLASSPATH+=:"$CASCADING_HOME/*":"$CASCADING_HOME/lib/*"

hadoop jar Cascadingアプリ.jar クラス名 引数…

Cascadingへ戻る / Hadoopへ戻る / Java目次へ行く / 技術メモへ戻る
メールの送信先:ひしだま