S-JIS[2011-11-20] 変更履歴

Hadoop0.23 CentOS

Hadoop0.23をCentOSへインストールしてみる。

インストール
WordCount

Single Node Cluster

CentOSへのインストール

アーカイブファイルをダウンロードしてくる。

アーカイブを展開する。

# cd /usr/local
# tar xf ~hishidama/Desktop/hadoop-0.23.0.tar.gz
# tar xf ~hishidama/Desktop/hadoop-0.23.0-src.tar.gz	←ついでにソースも

環境変数を設定する。~/.bashrcの最後尾に以下のコマンドを追加する。

export JAVA_HOME=/usr/java/default
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_COMMON_HOME=/usr/local/hadoop-0.23.0
export HADOOP_HDFS_HOME=$HADOOP_COMMON_HOME
export HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME
export HADOOP_CONF_DIR=$HADOOP_COMMON_HOME/conf

動作確認してみる。

$ cd $HADOOP_COMMON_HOME
$ bin/yarn
$ bin/yarn version
$ bin/yarn jar hadoop-mapreduce-examples-0.23.0.jar pi 4 2000

yarnコマンドで実行しているけれど、このサンプル自体は従来のMapReduceプログラム。
何も設定を行わない（confを何もいじらない）状態でMapReduceは実行できるようだ。

Single Node Clusterのページを見るとconf配下にxmlファイルを置いた上でResourceManagerとNodeManagerを起動するよう書かれているが
MapReduceを実行するだけなら起動しなくても大丈夫。
YARNを試す場合は起動させる必要があるが、confの下（xmlファイル）はデフォルトのままでも大丈夫そう。

WordCount

Windowsで作ったHadoop0.23用のWordCountを実行してみる。

WordCountのjarファイルを置くディレクトリーを作成する。
```
$ cd /tmp
$ mkdir wordcount
$ cd wordcount
```
Windowsで作ったHadoop0.23用のWordCountをjarファイル（wordcount23.jar）にしてCentOS上の「/tmp/wordcount」に転送する。
WordCountの入力データのファイルを「/tmp/wordcount/input」の下に作成する。
```
$ cd /tmp/wordcount
$ mkdir input
$ vi test.txt
```

WordCountを実行する。

$ $HADOOP_COMMON_HOME/bin/yarn jar wordcount23.jar sample.WordCount23 input output
$ cat output/part*

※これはローカル環境で実行される。→YARN環境で実行する方法

Hadoop0.23へ戻る / Hadoop目次へ戻る / 技術メモへ戻る

メールの送信先：ひしだま