Hadoop tips

hadoopのバージョンもついに1になった(リンク)。そこで久々に試してみたついでに、複数マシン(cluster構成)でmap-reduceジョブを行う際に気をつけるパラメーターについて新たに知ったことをメモしておくことにする。なお、相変わらずhdfsは使っていないので、それ関係の情報は無い。

  • core-site.xml
  • パフォーマンス向上のために下記パラメーターの値を調整する。

    1. fs.inmemory.size.mb
    2. io.sort.facto
    3. io.sort.mb
    4. io.file.buffer.size
  • mapred-site.xml
  • 下記パラメーターは、クラスタを構成する全てのマシンから共通に見えるパス(シェアディレクトリ)を設定する。

    1. mapred.system.dir
    2. mapred.temp.dir
    3. mapreduce.jobtracker.staging.root.dir
  • lib/native/Linux-amd64-64
  • map-reduce処理を担うプログラム中で必要なライブラリはこのディレクトリ下に配置する。
    mapred-site.xml中のmapred.child.java.optsパラメーターで-Djava.library.pathを設定しても効かなかった。

参考文献はCluster SetupMapReduce Tutorial