2002年1月28日

[julius-u:00113] Re: ARPA 標準形式

にしむら@奈良先端大です

Tatubou <tatubou@xxxxx>さん:
> 今辞書の語彙を絞ることで動作の高速化はできないものかと思い
> 語彙ファイルの中身をバイナリからテキストに逆変換しようと
> しているのですが、ARPA標準形式というのがどういった書式
> なのかわからないためソースから読み取ろうとしています。

> 今のところバイナリ変換前の語彙ファイルは以下のような書式なのではないかと
> 考えております。

>  \\data\\
>  ngram 0 = ****
>  ngram 1 = ****
>  ngram 2 = ****
>  \1-grams"
>  *** *** ***\n

そんな感じです.ただ,何度かこのMLにも出てますが,言語モデルは
統計情報を元に作成にしていますから,基本的には辞書の中身を
ちょこちょこっといじって変更できるものではありません.
# それでも,とりあえず動いてしまうものは作ることはできるので,
# 実用的には使えるとは思いますが….

ちなみに探索に用いる語彙数を単純に減らしたいだけならば,
語彙ファイル *.vocab にリストされている単語を削除するだけでよいです.
---
西村 竜一 <nisimura@xxxxx>

投稿者 xml-rpc : 2002年1月28日 01:26
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/3751
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。