S-JIS[2011-11-20] 変更履歴

Hadoop0.23 CentOS

Hadoop0.23をCentOSへインストールしてみる。


CentOSへのインストール

  1. アーカイブファイルをダウンロードしてくる。
  2. アーカイブを展開する。
    # cd /usr/local
    # tar xf ~hishidama/Desktop/hadoop-0.23.0.tar.gz
    # tar xf ~hishidama/Desktop/hadoop-0.23.0-src.tar.gz	←ついでにソースも
  3. 環境変数を設定する。~/.bashrcの最後尾に以下のコマンドを追加する。
    export JAVA_HOME=/usr/java/default
    export PATH=$JAVA_HOME/bin:$PATH
    export HADOOP_COMMON_HOME=/usr/local/hadoop-0.23.0
    export HADOOP_HDFS_HOME=$HADOOP_COMMON_HOME
    export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME
    export HADOOP_CONF_DIR=$HADOOP_COMMON_HOME/conf
  4. 動作確認してみる。
    $ cd $HADOOP_COMMON_HOME
    $ bin/yarn
    $ bin/yarn version
    $ bin/yarn jar hadoop-mapreduce-examples-0.23.0.jar pi 4 2000

yarnコマンドで実行しているけれど、このサンプル自体は従来のMapReduceプログラム。
何も設定を行わない(confを何もいじらない)状態でMapReduceは実行できるようだ。

Single Node Clusterのページを見るとconf配下にxmlファイルを置いた上でResourceManagerとNodeManagerを起動するよう書かれているが
MapReduceを実行するだけなら起動しなくても大丈夫。
YARNを試す場合は起動させる必要があるが、confの下(xmlファイル)はデフォルトのままでも大丈夫そう。


WordCount

Windowsで作ったHadoop0.23用のWordCountを実行してみる。

  1. WordCountのjarファイルを置くディレクトリーを作成する。
    $ cd /tmp
    $ mkdir wordcount
    $ cd wordcount
  2. Windowsで作ったHadoop0.23用のWordCountをjarファイル(wordcount23.jar)にしてCentOS上の「/tmp/wordcount」に転送する。
  3. WordCountの入力データのファイルを「/tmp/wordcount/input」の下に作成する。
    $ cd /tmp/wordcount
    $ mkdir input
    $ vi test.txt
  4. WordCountを実行する。
    $ $HADOOP_COMMON_HOME/bin/yarn jar wordcount23.jar sample.WordCount23 input output
    $ cat output/part*

※これはローカル環境で実行される。→YARN環境で実行する方法


Hadoop0.23へ戻る / Hadoop目次へ戻る / 技術メモへ戻る
メールの送信先:ひしだま