2011年6月26日

[Namazu-devel-ja 1798] podフィルタ

青柳です。

フィルタ作成の練習としてpodフィルタを作成してみました。

と言っても真面目にpodを解析する処理を実装したわけではなく、pod2htmlを
使ってhtmlに変換し、あとはhtml.plにお任せしただけという簡単実装です。
フィルタ自体もrtf.plをコピーして少し修正しただけです。


悩んだというか、困ったのは mediatype と magic についてです。

mediatype は IANA には規定がないようですので、rfc.plにならって
text/plain; x-type=pod というように定義してみました。

magic については、pod に特徴的な文字列をいくつか addSpecials()で
登録したのですが、心配なのは登場位置です。
File::MMagic::checktype_data() ではキーワードの登場位置が早いものを
優先して判定するようになっているようですが、podの場合はその特性上
ソースコード本体が書かれたあとに書かれます。そのソースコードに
先に他の文書のキーワードが登場すると判定を誤る可能性があります。
実際、HTML.pmなどはtext/htmlと誤判定してしまいました。

一応、'use strict;' や 'use warnings' や 'package' なども
登録することで改善しましたが、これらは必須というわけではありませんから
やはり誤判定の可能性は残るような気がします。
--
Shigekazu Aoyagi <aoyagi@xxxxx>


[pod.pl application/octet-stream (3.5KB)]
#
# -*- Perl -*-
# $Id: pod.pl,v 1.3.2.18 2008-05-02 08:13:45 opengl2772 Exp $
# Copyright (C) 2003-2008 Tadamasa Teranishi All rights reserved.
# 2003-2008 Namazu Project All rights reserved.
# This is free software with ABSOLUTELY NO WARRANTY.
#
# This program is free software; you can redistribute it and/or modify
# it under the terms of the GNU General Public License as published by
# the Free Software Foundation; either versions 2, or (at your option)
# any later version.
#
# This program is distributed in the hope that it will be useful
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public License
# along with this program; if not, write to the Free Software
# Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA
# 02111-1307, USA
#
# This file must be encoded in EUC-JP encoding
#

package pod;
use strict;
require 'util.pl';
require 'gfilter.pl';
require 'html.pl';

my $podconvpath = undef;
my @podconvopts = undef;

sub mediatype() {
return ('text/plain; x-type=pod');
}

sub status() {
# The check of a dependence filter.
return 'no' if (html::status() ne 'yes');

$podconvpath = util::checkcmd('pod2html');
if (defined $podconvpath) {
@podconvopts = ();
return 'yes';
}

return 'no';
}

sub recursive() {
return 0;
}

sub pre_codeconv() {
return 0;
}

sub post_codeconv () {
return 0;
}

sub add_magic ($) {
my ($magic) = @_;

$magic->addSpecials('text/plain; x-type=pod',
'use strict;', 'use warnings;', 'package',
'^=head', '^=over', '^=item', '^=back', '^=begin', '^=end', '^=cut' );

$magic->addFileExts('\\.(pod|pm|pl)$', 'text/plain; x-type=pod');

return;
}

sub filter ($$$$$) {
my ($orig_cfile, $cont, $weighted_str, $headings, $fields)
= @_;
my $err = undef;

my $cfile = defined $orig_cfile ? $$orig_cfile : '';

util::vprint("Processing pod file ... (using '$podconvpath')\n");

my $tmpfile = util::tmpnam('NMZ.pod');
util::writefile($tmpfile, $cont);
{
my @cmd = ($podconvpath, @podconvopts, $tmpfile);
my $fh_out = IO::File->new_tmpfile();
my $status = util::syscmd(
command => \@cmd,
option => {
"stdout" => $fh_out,
"stderr" => "/dev/null",
},
);
my $size = util::filesize($fh_out);
if ($size == 0) {
util::fclose($fh_out);
unlink $tmpfile;
return "Unable to convert file ($podconvpath error occurred).";
}
if ($size > $conf::FILE_SIZE_MAX) {
util::fclose($fh_out);
unlink $tmpfile;
return 'Too large pod file.';
}
$$cont = util::readfile($fh_out);
util::fclose($fh_out);
}
unlink $tmpfile;

# codeconv::toeuc($cont);
codeconv::codeconv_document($cont);

# Title shoud be removed.
$$cont =~ s!<TITLE.*?>.*?</TITLE>!!is;

html::html_filter($cont, $weighted_str, $fields, $headings);

gfilter::line_adjust_filter($cont);
gfilter::line_adjust_filter($weighted_str);
gfilter::white_space_adjust_filter($cont);
$fields->{'title'} = gfilter::filename_to_title($cfile, $weighted_str)
unless $fields->{'title'};
gfilter::show_filter_debug_info($cont, $weighted_str,
$fields, $headings);
return undef;
}

1;

_______________________________________________
Namazu-devel-ja mailing list
Namazu-devel-ja@xxxxx
http://www.namazu.org/cgi-bin/mailman/listinfo/namazu-devel-ja


投稿者 xml-rpc : 2011年6月26日 14:49
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/104893
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。