hadoop取り敢えずまとめ

hadoop ver. 0.20.0 について

下記の項目に留意して効率アップをする

  • プログラム中でのconf.setNumReduceTasks(<INT>)の記述
  • プログラム中でのcombineの工夫
  • プログラム中でのconf.setCompressMapOutput(true);conf.setMapOutputCompressorClass(DefaultCodec.class);の記述
  • core-site.xmlでのio.sort.factorの設定(100など)

また、hdfsを使わない時の設定として留意する点は、core-site.xmlt中においてfs.default.nameをfile:///とすることとともに、mapred-site.xml中に、mapred.system.dirとmapred.temp.dirに対して、cluster環境下(=複数ノードに渡る構成)でも物理的に同一パスを指すようにする。

cluster環境下で、各ノードのローカルディスクが殆ど無いような環境では、/tmp下(=各ノードの物理ディスク領域)にそれぞれのノードで別々のnfsパスへのシンボリックリンクを張る。物理的に同じディスク領域が指定されるとディスクアクセスが適切に動作しない。