[Hadoop] Hadoop 0.21のインストール

Hadoop (version 0.21)を単一のマシン上で動作させる方法を紹介します。

OS: CentOS 5.5
参考URL: http://hadoop.apache.org/common/docs/r0.21.0/

Hadoopのサイトから hadoop-0.21.0.tar.gz をダウンロードして、適当なディレクトリに解凍します。次に conf/hadoop-env.sh を編集して、JAVA_HOMEを設定します。以下は、私の環境の場合の設定です。

# The java implementation to use.  Required.
# export JAVA_HOME=/usr/lib/j2sdk1.6-sun
export JAVA_HOME=/usr/java/jdk1.6.0_17/

これで、インストール自体は完了です。hadoopのスクリプトを実行して、正しく動作することを確認します。

[hadoop-0.21.0]$ ./bin/hadoop
Usage: hadoop [--config confdir] COMMAND
       where COMMAND is one of:
  fs                   run a generic filesystem user client
  version              print the version
  jar <jar>            run a jar file
  distcp <srcurl> <desturl> copy file or directories recursively
  archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
  classpath            prints the class path needed to get the
                       Hadoop jar and the required libraries
  daemonlog            get/set the log level for each daemon
 or
  CLASSNAME            run the class named CLASSNAME
 
Most commands print help when invoked w/o parameters.

このように、使い方が表示されれば、ちゃんと動作しています。

では、hadoopによるgrep処理を行ってみましょう。hadoopはデフォルトでgrep処理を実装しています。以下では、hadoopを解凍したディレクトリにて作業します。

まず、inputディレクトリを作成し、grepの対象ファイルを用意します。今回は、Hadoopの設定ファイルを対象ファイルとします。

[hadoop-0.21.0]$ mkdir input
[hadoop-0.21.0]$ cp conf/*.xml input/

それでは、grep処理を実行します。grepで指定するキーは、'dfs'から始まる文字列とします。grep処理の結果は、outputディレクトリに出力するように指定します。

[hadoop-0.21.0]$ ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar grep input output 'dfs[a-z.]+'
10/10/07 11:36:53 INFO security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000
10/10/07 11:36:54 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
       :

ログが色々と出力されます。

outputディレクトリ以下に出力されている「grep処理の結果」を確認してみます。

[hadoop-0.21.0]$ cat output/*
1   dfsadmin

普通にgrepコマンドを実行してみて、結果を比べてみます。

[hadoop-0.21.0]$ grep -R dfsadmin input/*
input/hadoop-policy.xml:    dfsadmin and mradmin commands to refresh the security policy in-effect.

フォーマットが違いますが、一応、ちゃんとgrep処理できていることがわかります。

Hadoop > Hadoop 0.21のインストール

広告

広告