2001年7月18日

[julius-u:00102] Re: 辞書フォーマット

にしむら@NAISTです

まず,はじめに,Juliusの辞書(言語モデル)には,
大量の学習用テキストから統計的に学習するN-gramモデルを用います.
よって,すでにある言語モデルにちょこっと手を加えて,単語登録をする,
とかいったことは,基本的にはできません.
# 動くかもしれないかもって程度ならできないこともないのですが….

川上 茂 <s_kawakami@xxxxx>さん:
> Juliusで使用する辞書フォーマットに則って

> 自分で専用の辞書を作成しようと考えていますが、
> サンプルの辞書の形式の中で、
>
> JR東日本+ジェイアールヒガシ{ニホン/ニッポン}+9 [JR東日本] j e
> i a: r u h i g a sh i n i h o N
>
> という記述をしていけばよさそうなのはわかりましたが、
> +9とか+1とかの部分に関して、一寸分からなくなっております。
> この数字の意味、おわかりでしょうか?
> ご回答のほど、よろしくお願い致します。

この辞書ファイルというのは,おそらく語彙ファイル(HTKDICファイル)
だと思いますが,このファイルを変更しても辞書には反映されません.
辞書の本体というべきファイルは,.bingram(.gz)とか.arpa(.gz)といった
感じのsuffixがついた方のN-gramモデルを格納したファイルです.
# これも正確な表現ではないのですが….

さて,語彙エントリについている数字の意味ですが,これは品詞番号や
活用形などです.普段,我々は言語モデルを作成する際,ChaSenを用いて
形態素解析するのですが,このChaSenが番号をつけます.

詳しくは http://chasen.aist-nara.ac.jp/ から取得できるマニュアルを
参考にしてください.ちなみに,ChaSenの出力フォーマットは,
(出力フォーマット "%m\t%?U/未知語/%a0/\t%M\t%h/%t/%f\n")
を使用しています.

Juliusの言語モデルまわりをより手軽にするのは使命だと思っているの
ですが,まだ,ほとんど手付かずです.ごめんなさい.
---
西村 竜一 <nisimura@xxxxx>

投稿者 xml-rpc : 2001年7月18日 06:13
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/3740
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。