2007年1月27日

[Namazu-devel-ja 1464] msofficexml.pl におけるタグ間のスペース問題

寺西です。

これは何とかなるのでしょうか?
powerpoint2007.ppsx の検索結果は次のようになります。

19. Namazu のテスト (スコア: 22)
著者: test@xxxxx
日付: Fri, 26 Jan 2007 20:20:51 +0900

Namazu のテスト test@xxxxx Copyright (C) 2000 - 200 7 Namazu
Project. All rights reserved. トピック 1 Namazu は手軽に使えること
を第一に目指した日本語全文検索システムです。このファイルはテスト用
/backup/work/development-2-1/namazu/tests/tmp-data/powerpoint2007.ppsx
(58,097 bytes)

ここの "2007" が "200 7" に分かれてしまっています。
その理由は、元々 200x だった x を 7 に編集して保存したためで、
ファイルの中身は次のようにタグで分けられているためでしょう。

<a:r><a:rPr lang="ja-JP" altLang="ja-JP" dirty="0" smtClean="0">
<a:latin typeface="+mn-ea"/></a:rPr><a:t>200</a:t></a:r>
<a:r><a:rPr lang="en-US" altLang="ja-JP" dirty="0" smtClean="0">
<a:latin typeface="+mn-ea"/></a:rPr><a:t>7</a:t></a:r>

Office がきちんと連結してくれれば良いのですが、そう都合よくはありま
せん。
HTML の時のように $NON_SEPARATION_ELEMENTS のようにタグの種類で判別
するなどして、余計なスペースが入らないようにできればなぁと思います。
--
=====================================================================
寺西 忠勝(TADAMASA TERANISHI) yw3t-trns@xxxxx
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint = 474E 4D93 8E97 11F6 662D 8A42 17F5 52F4 10E7 D14E

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja

投稿者 xml-rpc : 2007年1月27日 00:19
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/53363
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。