2006年9月22日

[Namazu-devel-ja 1251] Re: ptknamazu

寺西です。

Yukio USUDA wrote:
>
> > # nmzcat 凄し!! です。
>
> もともとこういう使い方をしたかったので mknmz を分解して
> いった

> という経緯があったのですが、Perl/Tk のマルチバイト処理に問
> 題が
> あったのと wxPerl がうまく動かない環境にあたってしまったりと
> しばらく放置していました。

おぉ。発表までには、いろいろ背景があったわけですね。

> ちょっと試すかソースをみていただければわかりますが全文を取り出す
> のは
> タブを選択したときだけなので、通常はいつもの summary の表
> 示をしているので
> 検索速度には影響がないはずです。

失礼しました。ソースは見ていたのですが、呼び出す条件を見ていません
でした。

> とはいっても Scheme フィルタ等を実装していく上で本文すべて

Scheme については今ちょっと別の案を考えているのですが、まとまれ
ば、また相談させてください。

> したいですね。NMZ.field.gzippedcontent とかでそれなりに実
> 現はできるのでは
> ないでしょうか。

概念的にはこれでいいのですが、実際のところはいろいろと壁があります。
まず、フィールドの最大サイズは BUFSIZE を越えられないことです。
それとフィールドはテキストに限定されている(はず)ということです。

また、さすがにプレーンテキスト化した本文となると、かなりの
ボリューム(何ページにも渡る PDF や Word ファイルというものも
あるので)があるので、長い一行にまとめるというのも無理がある
でしょう。
また、個々を圧縮するとしても、全体がひとつのファイルとなるとかなり
大きなファイルとなってしまうので 2G の壁に簡単にぶつかることで
しょう。

なので、個々をファイル化(gzipで圧縮)し、それを管理するファイルを
用意する必要がでてくるかと思います。それは、インデックスの拡張が
必至ということです。

...が、インデックスのディレクトリにこれらのファイルを全て入れると
とんでもない数のファイルができるので、これまた問題です。
サブディレクトリを切って、オリジナルのファイルのディレクトリ構成
でファイルを詰め込むとか、しないといけないのかもしれません。

それもあまり良い方法ではないような...。

というところで、アイディア募集中です。

> > そうすると、ヘルパーアプリケーションがなくてもテキストで表示す
> > ると
> > いったこともできますし。(レイアウトを維持するのは難しい
> > か...)
>
> レイアウトが気になる場合はオリジナルを参照すればよいので
> レイアウトの維持はあまり問題ではないと思います。

ヘルパーアプリケーションをインストールしていない環境、例えば、
一太郎をインストールしていない環境で、ちょっと中身を見てみたいと
いった場合を想定していました。
この場合、レイアウトもできれば維持されていると嬉しいのですが、
まぁ贅沢といえば贅沢な要求ですね。
中身がプレーンテキストで見れるというだけでも、十分利用価値はあり
ますしね。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2006年9月22日 01:24
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/46465
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。