2006年3月 6日

[SpamAssassin-JP 82] Re:SpamAssassin 3.1.0の日本語対応パッチ

** SpamAssassin メーリングリスト **
** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
舘山です

久保様も記述されてますがMeCab は./configure 時に --with-charset=utf8 
を指定することでデフォルトのコードをutf-8 に出来ます 
こうするとさらに
my $utf8= Encode::decode("utf-8",$str);

は不要になります

#!/usr/bin/perl -w
use strict;
use MeCab;
my $m = new MeCab::Tagger ("-Owakati");
while() {
my $utf8 = $m->parse($_);
}

で良くなります

Debian パッケージでは辞書が最初EUC-JP で入りますが
以下のように変更できました
cd /usr/share/mecab/dic/ipadic/
ファイルdicrc の内容charset = utf8に変更
この後このディレクトリのファイルを全てutf8へ変換
for i in * ; do mv $i $i.euc; nkf -w $i.euc > $i; done

その後以下のコマンドで辞書をmecabに取り込む
dpkg-reconfigure mecab-ipadic

という感じでした

fc4 では ソースから configure の指定で--with-charset=utf8を指定してコン
パイルインストールすると辞書もutf8に変換されてインストールされました。


#ただし古いバージョンだったですので新しいバージョンのもの試してみます

TAKIZAWA Takashiさんの
題名「[SpamAssassin-JP 80] Re: SpamAssassin 3.1.0の日本語対応パッチ」のメールからの引用です
> ** SpamAssassin メーリングリスト **
> ** 注意:このメールへの返信は SpamAssassin-jp へ行きます **
> 滝澤です。
>
> 私も同じくkakasiとMeCabの処理能力を比較してみました。
> SAから分かち書きの部分だけを取り出してUTF-8に予め変換したspamメールを
> kakasiとMeCabに食わせてみました。
> 利用したスクリプトは以下の通りです。
--
彡彡从 たてやんっす
d□/□-b
ヽ"ー"丿


--
SpamAssassin メーリングリスト
http://mm.apache.jp/mailman/listinfo/spamassassin-jp

投稿者 xml-rpc : 2006年3月 6日 23:55
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/40870
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。