2008年4月 7日

[Namazu-users-ja 1068] Re: gcnmz が非常な時間を要するようになった

白井です。

最近、shimbun で作ったファイルを mknmz したことがなかったので実
験してみました。実験対象は Mew + 朝日新聞の rss 版ですが、他のも
のでもほぼ一緒でしょう。

From: Yukio USUDA <m6694ha392t@xxxxx> さん曰く
Subject: [Namazu-users-ja 1067] Re: gcnmz が非常な時間を要するようになった

Message-ID: <47F998B9.2040303@xxxxx>
Date: Mon, 07 Apr 2008 12:44:57 +0900

> emacs-w3m の Shimbun について少し探してみました
> http://www.bookshelf.jp/texi/emacs-w3m/emacs-w3m-ja_9.html#SEC71
> ただし、フォーマットについて正確に定義した文章やサンプルの
> ファイルは見つけることができませんでした。
> これは RFC2557 や mime 関連の RFC にきちんと準拠したフォーマット
> となっているのでしょうか。
> lisp のソースを読むかインストールして試さないとわからないのでしょうか。

最近調べていませんが、ちゃんとした mime 形式のメールになっていま
す :-)

> しかしながら、RFC822 に準拠したものであれば -h オプション
> なしのときにもtext/html ではなく message/rfc822 として
> 認識されるべきです。
> 実際には、厳密なものでなくてもヘッダの1行目が下記のような
> 文字ではじまっていれば mknmz で message/rfc822 として認識
> できるはずです。

ぼくも text/html と認識されました。これは、おそらく shimbun がで
きた時以来、ずっとそうだったのだと思います。ぼくが以前 shimbun
も含めて ~/Mail の下を mknmz していたときは --mailnews をつけて
いたので気づかなかったみたい。

# --decode-base64 が出来てから --mailnews を付けるのは止めました。
# また、それぐらいの時期から shimbun は mknmz しなくしちゃった。
## といった感じ ^^;

> Relay-Version:
> #! rnews
> N#! rnews
> Forward to
> Pipe to
> Return-Path:
> Received:
> Path:
> Xref:
> From:
> Article

この辺は shimbun を 扱う MUA に依存する部分なのですが、Mew だと

X-Shimbun-Id: asahi-html+rss:<20080407.NGY200804070001%national.rss.asahi.com>

の様なヘッダーが必ず第一行目になります。ソースを読む限りでは、野
宮さんの使っている Wanderlust も同様になります。なお、Gnus はぱっ
と見ではわかりませんでした。

というわけで、臼田さんのあげられたヘッダとは違っているので

(1) mailnews.pl の add_magic() を以下の様に書き換える

sub add_magic ($) {
my ($magic) = @_;
$magic->addMagicEntry("0\tstring\tX-Shimbun-Id:\tmessage/rfc822");
return;
}

(2) File/MMagic.pm に以下の一行を加える

# There are tests to ascmagic.c to cope with mail and news.
0 string X-Shimbun-Id: message/rfc822

とすれば、 message/rfc822 と認識されました。当然 (1) がおすすめ
でしょう。

しかし、ファイルの一行目だけで、万人が誤判定なく message/rfc822
と判定するのは不可能だと思いますので、このあたりは Namazu でサポー
トせずに『各人の運用でカバー』でよいんじゃないでしょうか?

> > で,複数ページに亘るものはインデックス化出来ないと思いこみましたのは,テス
> > トに用いたファイルが原因でした.つまり,テストに用いたファイルの Subject が
> > UTF-8 でエンコードされていた為(本文は,ISO-2022-JPです)で,Subject を
> > ISO-2022-JP のものに置き換えると,
> >
> subject 部分が RFC2047 にそった mime エンコードがされていない
> 生の UTF-8 ということであれば RFC にあっていないようにも思えます。
> ちゃんと mime エンコードされているとすれば UTF-8 と ISO-2022-JP が
> 混在しているのは特殊かもしれませんが、きちんと処理できるように
> mailnews.pl を修正する必要があるかもしれません。

ぼくもなんでそうやって混じっているのかわかりません。
実例(shimbun のパッケージ名とか記事のURIとか、そのファイルそのも
の)が欲しいです。

--
白井秀行 (mailto:shirai@xxxxx)
_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 7日 14:03
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71873
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。