S-JIS[2011-11-20/2012-06-08]
変更履歴
Hadoop0.23
Hadoop0.23のメモ。
Hadoop0.23.0は2011-11-11にリリースされた。
ただしまだstable(安定版)ではないので実運用では使うべきではないとのこと。
(Hadoop0.23はHadoop2.0になった。また、ClouderaのCDH4がHadoop2.0をベースとしている。[2012-06-08])
0.23の前の最新版はHadoop0.21。
ただし安定版はHadoop0.20だった。CDH3もHadoop0.20をベースにしている。
…Hadoop0.22がどうなったのかは、聞いたことも無い(爆)
Hadoop0.23は内部の構成(設計)が大幅に変更になっている。
- HDFSフェデレーション
- federationは連合とかいう意味らしい。
従来のHDFSはNameNodeが1つしか無かったが、複数になった。複数のNameNodeで複数のDataNodeを管理するから“連合”なのかな?
また、NameNode内がNamespaceとBlock Storageの二層に分かれた。Namespaceが名前(ファイル名?)の管理で、Block
StorageがDataNodeの管理をする。
- MapReduce 2.0(YARN)
- HadoopのプログラムのアルゴリズムはMapReduceだったので、次バージョンということでMapReduce
2.0(MRv2)と呼ばれているが、実際はもうMapReduceとは関係ない(超越している)。YARNという名前が付けられている。
従来はClientがJobTrackerに対して実行を依頼し、JobTrackerがジョブをタスクに分割して、各タスクを複数スレーブ(DataNode上のTaskTracker)に割り当てていた。
YARNではClientはResourceManagerに対して実行を依頼する。ResourceManagerはスレーブ上にApplicationMasterを起動し、ApplicationMasterがタスク分割して複数スレーブ(Container)に割り当てる感じかなぁ。
どのようにタスク分割するかについては、従来はMapReduceアルゴリズムに基づいてHadoopが自動的に行っていた。
YARNではApplicationMaster上で動くプログラムも自分で作れるので、MapReduce以外のアルゴリズムにも対応できる。
従来のMapReduceプログラムもリコンパイルするだけで使える。
従来のHadoopはSingle Node(単独環境・擬似分散環境)・Cluster(完全分散環境)の3つの環境があったが、
Hadoop0.23ではSingle
Node ClusterとClusterの2つになったっぽい。
環境構築用のページからはWindowsとかCygwinという言葉が消えたので、Windows上で動かすのはいい加減あきらめた方がいいかも^^;
-
Apache Hadoopのトップページで上部のメニューの「Common」か本文中の「Hadoop Common」をクリックしてHadoop
Commonのページを開く。
- 本文中のGetting Startedの章の「Download」をクリックしてリリースされたバージョン一覧のページを開く。
- Downloadの章の「Download a release now!」をクリックして、ミラーサイト一覧のページを開く。
-
ミラーサイトを選択し、アーカイブファイル(hadoop-0.23.0.tar.gzやhadoop-0.23.0-src.tar.gz)をダウンロードする。
Hadoop目次へ戻る /
技術メモへ戻る
メールの送信先:ひしだま