Author Archives: yayamamo - Page 5

Allieマイナーバージョンアップ

Allieで使っているツールALICEの生みの親が訪れた日と奇しくも重なっていますが、Allieがマイナーバージョンアップしました。

  • 直リン機能の追加: http://allie.dbcls.jp/?s=iPS みたいにして使えます。
  • メッセージの日本語化: UA(ブラウザ)の言語設定に応じて表示されるメッセージが日英自動的に変わります。
  • 言語設定を明示的に指示する場合にはURLのパスの冒頭に en もしくは ja を含めます。http://allie.dbcls.jp/en のように。

次はコンテンツの国際化です。

NER を試す

ABNERはBioCreativeとNLPBA双方。
LingPipeはcmd_ne_en_bio_genia.shとcmd_ne_en_bio_genetag.sh双方。
更にLingPipeはここを参考にすべし。

RelEx 作業記録

CLASSPATH /home/yayamamo/src/opennlp-tools-1.4.3/output/opennlp-tools-1.4.3.jar:/home/yayamamo/src/opennlp-tools-1.4.3/lib/trove.jar:/home/yayamamo/src/opennlp-tools-1.4.3/lib/maxent-2.5.2.jar:/home/yayamamo/local/share/java/linkgrammar-4.5.8.jar:/home/yayamamo/src/jwnl14-rc2/jwnl.jar

[yayamamo@cl12 relex-1.1.0]$ ant
Buildfile: build.xml

build-subprojects:

init:

build-version:
[echo] Building RelEx version 1.1.0
[copy] Copying 1 file to /mnt/auto/home/yayamamo/src/relex-1.1.0/src/java/relex

look-for-gate:
[echo] Will not build GATE-based entity detector; GATE classes not found.

look-for-owl:
[echo] Will not build OWL output format; org.semanticweb.owl classes not found.

look-for-opennlp:

build-project:
[echo] relex: /mnt/auto/home/yayamamo/src/relex-1.1.0/build.xml
[javac] Compiling 134 source files to /mnt/auto/home/yayamamo/src/relex-1.1.0/bin
[javac] /mnt/auto/home/yayamamo/src/relex-1.1.0/src/java/relex/parser/RemoteLGParser.java:31: シンボルを見つけられません。
[javac] シンボル: クラス LGRemoteClient
[javac] 場所 : relex.parser.RemoteLGParser の クラス
[javac] private LGRemoteClient linkGrammarClient = new LGRemoteClient();
[javac] ^
[javac] /mnt/auto/home/yayamamo/src/relex-1.1.0/src/java/relex/parser/RemoteLGParser.java:179: シンボルを見つけられません。
[javac] シンボル: クラス LGRemoteClient
[javac] 場所 : relex.parser.RemoteLGParser の クラス
[javac] public LGRemoteClient getLinkGrammarClient()
[javac] ^
[javac] /mnt/auto/home/yayamamo/src/relex-1.1.0/src/java/relex/parser/RemoteLGParser.java:184: シンボルを見つけられません。
[javac] シンボル: クラス LGRemoteClient
[javac] 場所 : relex.parser.RemoteLGParser の クラス
[javac] public void setLinkGrammarClient(LGRemoteClient linkGrammarClient)
[javac] ^
[javac] /mnt/auto/home/yayamamo/src/relex-1.1.0/src/java/relex/parser/RemoteLGParser.java:31: シンボルを見つけられません。
[javac] シンボル: クラス LGRemoteClient
[javac] 場所 : relex.parser.RemoteLGParser の クラス
[javac] private LGRemoteClient linkGrammarClient = new LGRemoteClient();
[javac] ^
[javac] 注:一部の入力ファイルは推奨されない API を使用またはオーバーライドしています。
[javac] 注:詳細については、-Xlint:deprecation オプションを指定して再コンパイルしてください。
[javac] エラー 4 個

BUILD FAILED
/mnt/auto/home/yayamamo/src/relex-1.1.0/build.xml:96: Compile failed; see the compiler error output for details.

Total time: 2 seconds

参考にすべきページ

Hadoop io.compress / distributive

Version 0.20.0 (java 1.6.0_13 on SunOS 5.10)の話。
Mapの出力を圧縮するのにGzipCodecを利用したら何故か動作せず。
BZip2CodecならOK。
と思ったら、こちらもダメ。(コンパイルは通るのだが、実際に実行すると途中でコケる)
DefaultCodec でようやく問題無く動作。
まだ色々難しいのだろうか。

distributiveなMap関数の場合はCombinerを使う。

追記
どうやらSunOS 5.10/sparcだから問題があるようだ。
Java で Sun だから、むしろこちらの方が望ましいかと思いきや。
util.NativeCodeLoader で Loaded the native-hadoop library と表示されるのは x86 で、sparcマシンでは失敗する。

追記2
Reduce Taskの数を複数にするためには conf/mapred-site.xml に mapred.tasktracker.reduce.tasks.maximum の数を大きくするだけではなく、実際のソースコードに conf.setNumReduceTasks(30) の様に設定する必要がある。

動的MEDLINE検索 for LSDB

無事公開可能になりました。
DBCLSによる公開バージョンinMeXesのURLはhttp://docman.dbcls.jp/im/

以下のアプリは同APIを利用しています。4文字以上入力すると検索開始です。