S-JIS[2011-11-20/2012-06-08] 変更履歴

Hadoop0.23

Hadoop0.23のメモ。


概要

Hadoop0.23.0は2011-11-11にリリースされた。
ただしまだstable(安定版)ではないので実運用では使うべきではないとのこと。
(Hadoop0.23はHadoop2.0になった。また、ClouderaのCDH4がHadoop2.0をベースとしている。[2012-06-08]

0.23の前の最新版はHadoop0.21
ただし安定版はHadoop0.20だった。CDH3もHadoop0.20をベースにしている。
…Hadoop0.22がどうなったのかは、聞いたことも無い(爆)


Hadoop0.23は内部の構成(設計)が大幅に変更になっている。

HDFSフェデレーション
federationは連合とかいう意味らしい。
従来のHDFSはNameNodeが1つしか無かったが、複数になった。複数のNameNodeで複数のDataNodeを管理するから“連合”なのかな?
また、NameNode内がNamespaceとBlock Storageの二層に分かれた。Namespaceが名前(ファイル名?)の管理で、Block StorageがDataNodeの管理をする。
MapReduce 2.0(YARN)
HadoopのプログラムのアルゴリズムはMapReduceだったので、次バージョンということでMapReduce 2.0(MRv2)と呼ばれているが、実際はもうMapReduceとは関係ない(超越している)。YARNという名前が付けられている。
従来はClientがJobTrackerに対して実行を依頼し、JobTrackerがジョブをタスクに分割して、各タスクを複数スレーブ(DataNode上のTaskTracker)に割り当てていた。
YARNではClientはResourceManagerに対して実行を依頼する。ResourceManagerはスレーブ上にApplicationMasterを起動し、ApplicationMasterがタスク分割して複数スレーブ(Container)に割り当てる感じかなぁ。
どのようにタスク分割するかについては、従来はMapReduceアルゴリズムに基づいてHadoopが自動的に行っていた。
YARNではApplicationMaster上で動くプログラムも自分で作れるので、MapReduce以外のアルゴリズムにも対応できる。

従来のMapReduceプログラムもリコンパイルするだけで使える。


従来のHadoopはSingle Node(単独環境・擬似分散環境)・Cluster(完全分散環境)の3つの環境があったが、
Hadoop0.23ではSingle Node ClusterClusterの2つになったっぽい。
環境構築用のページからはWindowsとかCygwinという言葉が消えたので、Windows上で動かすのはいい加減あきらめた方がいいかも^^;


ダウンロード

  1. Apache Hadoopのトップページで上部のメニューの「Common」か本文中の「Hadoop Common」をクリックしてHadoop Commonのページを開く。
  2. 本文中のGetting Startedの章の「Download」をクリックしてリリースされたバージョン一覧のページを開く。
  3. Downloadの章の「Download a release now!」をクリックして、ミラーサイト一覧のページを開く。
  4. ミラーサイトを選択し、アーカイブファイル(hadoop-0.23.0.tar.gzやhadoop-0.23.0-src.tar.gz)をダウンロードする。

Hadoop目次へ戻る / 技術メモへ戻る
メールの送信先:ひしだま