1999年12月24日

[julius-u:00007] Re: [ANNOUNCE] Julius-users ML オープン

李@京大 です.

> 柴田(ひ)%会社(^^;@福岡です。

お仕事おつかれ様です(^^;)

> 今一番欲しい情報は、「どうやればJuliusに私の癖を覚えさせられるか?」です。

たしかに,ここが今一番欠けているところですよね.

> 癖といってもいろいろあって、
> ・文体
> ・発音
> ・スピード
> などなど様々ですが、特に文体に関しては認識度にかなり影響するようなので
> 新聞の文体以外でも受け付けられるようにしたいのですが、
> どうすればいいのか分かっていません(^^;
> 幸い私の文体は、自分が書いたメールで山ほどありますので、
> これらを元データにして、何とかできないかなぁと思っています。

大量のテキストがあるなら,とりあえず
そのデータを使って一から言語モデルと辞書を作ってみるのがよいかと.

#本来は,今ある新聞記事のモデルをうまくいじれればいいんですけど,
#N-gramって単純な単語連鎖なので,あとから新たな単語を追加したり
#一部分だけ確率を変更したりっていうのがやりにくいのです.
#この辺は研究課題ってことで.

基本的な作り方は,大量のテキストを全部Chasenにかけて
形態素区切りテキストに変換したあと,CMU-TKというN-gram作成
ツールで言語モデルを作成します.

CMU-TKのページは
http://svr-www.eng.cam.ac.uk/~prc14/toolkit.html
にあります.

…でもこれだけの情報では作りようがないような気がしますね(^^;
近々 HowTo を書きます.

では.
--
李 晃伸 (ri@xxxxx) 京都大学 大学院 情報学研究科
音声認識エンジンJuliusのページ:
http://winnie.kuis.kyoto-u.ac.jp/members/ri/julius/index.html

投稿者 xml-rpc : 1999年12月24日 13:01
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/3645
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。