2008年4月 6日

[Namazu-users-ja 1057] Re: gcnmz が非常な時間を要するようになった

寺西です。

野宮 賢 / NOMIYA Masaru wrote:
>
> 寺西さん> また、どういった理由で -K オプションで base64 なパートが無視される
> 寺西さん> と思ったのでしょう。
>
> base64のパートには記号が多いということからの全くの勘違いでした.


-K オプションは、全角文字と、半角のアルファベット、数字以外の文字を
削除するオプションに過ぎません。
(内部で、全角文字の記号の一部は半角文字に変換しますが、上記の条件は
変換後に適用されます。)

Base64 の記号は、普通は '+', '-', '=' の三種類ですので、これらの文字が
削除されるだけです。

> 小生>> 3. インデックス作成範囲を指定する形式(これは,
> 小生>> http://www.namazu.org/ml/namazu-users-ja/msg03573.html で廣瀬さんがお示
> 小生>> しになっている方法に従い,html.pl のパッチを当て,.mknmzrc に
> 小生>>
> 小生>> $SUMMARY_PAT = "<body>(.*?)</body>";
> 小生>>
> 小生>> を加えて,
>
> 寺西さん> 応用しようとしているのでしょうが、元のパッチの意味を理解せずに
> 寺西さん> やっているために、意図した通りには動いていないでしょう。
...
> ようやく,意味を了解するに至りました.
> あくまで,Summary なんですね.

summary であることはご理解いただいたようですが、全体の意味はまだ理解
されていないような...。

> ともあれ,インデックスが損傷しているのでは(思い当たる節があります)と,考

インデックスは新規に作り直していますよね?
インデックスの更新では、Base64 のゴミ文字列で大きくなったインデックス
は、その文書が更新されない限り、大きいままですよ。

> その際,廣瀬さんがお示しになった html.pl.dif を当てると共に,.mknmzrc に
>
> $SUMMARY_PAT = "<body>(.*?)</body>";

何のためにこれをやったのでしょう。
パッチの意味と、あなたが手を加えた変更によってどのような処理を行うこと
になるのか、本当にわかっているのでしょうか?

少なくとも gcnmz の時間の話と、</html> タグの後ろを削除しなければなら
ない話には、これは関係しませんが...。

> を加え,尚且つ, $ON_MEMORY_MAX の値を 50MB から 300MB に増やし,mknmz を
> 走らせ,床に就きました.今日の夕方位まで掛かるだろうと思っていましたが,何
> と,朝起きましたら終了しており,観ましたら,所要時間は6時間弱で,大変驚きま
> した.「$ON_MEMORY_MAX」は,今更ながら,「Namazuの豆知識」を参考にさせて戴
> きました.m(_ _)m

$ON_MEMORY_MAX は mknmz にしか影響しません(gcnmz には無関係)が、
マシンの実メモリとは直接関係ありませんので、必要ならばもっと大きな
値を設定しても構いません。実メモリ以上でも構いません。
# ただし、設定値を大きくすると消費メモリは多少なりとも増えますが。

この値は、処理する文書ファイルの総量で決めると良いでしょう。

> この上で gcnmz を走らせた結果に就いては,後日,改めて報告させて戴きます.

...ん〜。

> ということです。ご自身で </html> タグの後ろを削除したものを mknmz
> に渡してください。
> もちろん、そういう処理を html.pl に追加してもいいですが...。

ということをしないと意味がありませんけど?
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-users-ja mailing list
Namazu-users-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-users-ja

投稿者 xml-rpc : 2008年4月 6日 19:17
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/71846
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。