S-JIS[2010-02-21/2021-05-17] 変更履歴

Apache Hadoop

Apache Hadoop(ハドゥープ)は、分散コンピューティングの為のオープンソースのソフトウェア（フレームワーク）。

Hadoopというのは、製作者の子供のぬいぐるみの象の名前なんだそうだ。
公式ページの上の方に描かれている黄色い象がそれか？＾＾；（ぬいぐるみの写真→@ITの記事や工藤さんのブログの下の方）

リンク集
インストール
- Windowsへのインストール
  - Hadoop0.20 [2010-08-29]
  - Hadoop0.21 [2010-08-29]
  - HDInsight [/2013-02-26]
  - HDP [/2013-05-26]
  - Hadoop 2.1 [2013-08-31]
- CDH3のインストール [/2012-05-10]
- CDH4のインストール [2012-06-08]
- Hadoop2.10.1のインストール [/2021-05-17]
単独環境の動作確認 [/2010-08-29]
擬似分散環境の構築 [/2010-04-04]
仮想分散環境の構築 [/2012-01-07]
Hadoop0.23 [/2011-11-29]

プログラミング
- Java APIの使用方法 [/2012-12-15]
- Streaming [/2011-12-26]
サンプル
- WordCount（Javaチュートリアル） [/2010-02-22]
- ファイル集計サンプル [/2010-03-19]
- HBase集計サンプル [/2012-04-28]
提供されているサンプル
- TeraSort [2012-04-03]
コネクター
- Oracle Loader for Hadoop [/2012-07-14]
- Hoop・HttpFS [/2012-10-02]
- WebHDFS [/2012-10-11]

Welcome to Apache Hadoop! … 公式ページ（英語）
Apache Hadoop へようこそ！ … Hadoop日本語サイト
@ITのGoogleのMapReduceアルゴリズムをJavaで理解する
@ITのMapReduceのJava実装 Apache Hadoopを使ってみた
TechBlogのHadoopを使いこなす
Preferred Infrastructureのオープンソース分散システム「Hadoop」解析資料
ThinkITのHadoopシステム構築のノウハウ
Hadoop WikiのHadoop Java Versions

リンク

情報	内容	辿り着く方法
Hadoopのトップページ	Hadoopの日本語トップページ
ダウンロードページ	ダウンロード	トップページの上部のタブっぽいリンクから「Common」を選択し、スタートガイドの「ダウンロードする」をクリックする。
概要	簡単なリンク集	トップページの上部のタブっぽいリンクから「Common」を選択し、スタートガイドの「知る」をクリックする。
クイックスタート	サポートされるOSや必要なソフト（バージョン）環境設定方法など	概要ページの左側のメニューの「スタートガイド」→「クイックスタート」を選択する。あるいは概要ページの本文の「Hadoop クイックスタート」をクリックする。
Map/Reduce チュートリアル	Map/Reduceのサンプルソース	概要ページの左側のメニューの「スタートガイド」→「Map/Reduce チュートリアル」を選択する。あるいは概要ページの本文の「Hadoop Map/Reduce チュートリアル」をクリックする。
コマンドガイド	hadoopのコマンドマニュアル	概要ページの左側のメニューの「プログラミングガイド」→「コマンド」を選択する。
APIドキュメント	Javadoc	概要ページの左側のメニューの「その他」→「APIドキュメント」を選択する。なんで“その他”なんだ?!(苦笑)

Windowsへのインストール

Hadoop0.20～0.21

Hadoop0.20はUNIXを想定しているようなので、Windowsで試す為にはCygwinが必要。
sshが必要なので、CygwinのOpenSSHもダウンロードして設定しておく。（単独環境で動作させるだけならsshは不要）

参考：クイックスタート

HadoopはJavaで動くので、JDK1.6もインストールしておく。

Hadoop Common リリースの「今すぐダウンロードする」を選択してダウンロードページを開く。
ダウンロードページから適当にミラーサイトを選んで、アーカイブをダウンロードする。（hadoop-0.x.y.tar.gz）
適当な場所にアーカイブを展開する。（C:\temp\hadoop-0.x.y\～）
展開したディレクトリーをCygwinのディレクトリーに移動する。（C:\cygwin\usr\local\hadoop-0.x.y\～）
（Cygwin（bash）から、/usr/local/hadoop-0.x.y/でアクセスできるようになる）
以降、C:\cygwin\usr\local\hadoop-0.x.yをHADOOP_HOMEと呼ぶことにする。

Hadoop0.20のインストール
Hadoop0.21のインストール [2010-08-29]

Hadoop1.1.0

Hadoop1.1ではHortonworksがWindows用に起動コマンドを用意したHDPというディストリビューションがあるので、それを使う。[2013-05-26]

HDInsight（プレビュー版）（Hadoop1.1.0） [2012-10-25]
HDP1.1.0 [2013-05-26]

Hadoopの環境設定

Hadoop0.20の環境設定
Hadoop0.21の環境設定 [2010-08-29]

Hadoop単独環境の動作確認

Windows上の単独環境（スタンドアローン・非分散環境）で試す方法。

単独環境は通常のマシンのファイルシステムをそのまま使うので、HDFS（Hadoop Distributed File System：Hadoop分散ファイルシステム）は使わない。
設定ファイル（HADOOP_HOME/confの下のxmlファイル）はデフォルトで単独環境用なので、特にいじる必要は無いらしい。

Hadoop0.20の単独環境の動作確認
Hadoop0.21の単独環境の動作確認 [2010-08-29]

技術メモへ戻る / Javaへ戻る

メールの送信先：ひしだま