2005年4月 7日

[linux-users:104780] Re: キャッシュサーバで特定ドメインの名前がひけない

こんばんは。

「引けない」とは、
(1). キャッシュサーバが無反応
(2). キャッシュサーバがNXDOMAIN(でしたか?、
そんなものは登録されていないというお答え)
が返ってくる
のいずれでしょうか。

ログの 6),7) で応答が戻ってきているように

見えますが、これは何でしょうか?

スレーブへのゾーン転送が正常でないようにも
見受けられます。

なお
> C) "ns.yyyy.or.jp"は、xxxx.co.jpドメインについて
> Lame 状態であるが、キャッシュサーバはLameであると
> 認識しないのでしょうか?
> (8.2.2では、Lameサーバは転送対象のNSには
> ならないので、ns.yyyy.or.jpにアクセスしないはず)
とありますが、xxxx.co.jpドメインのNSレコードとして
ns.yyyy.or.jpを、co.jpドメインのネームサーバに登録
していないということでしょうか? それならば普通
キャッシュサーバはns.yyyy.or.jpへ問い合わせない
はずです。
(参考)
http://jprs.jp/tech/notice/2003-05-20-dnsqc-lame-delegation.html

dig を試してみるのも良いかも知れません。

On Thu, Apr 07, 2005 at 10:22:24AM +0900, Watanabe, Hiroshi wrote:
> こんにちは。
> いつもお世話になっております。
>
> BIND8.2.2のキャッシュサーバで障害が発生しましたが、原因のあたりもつけられず困っています。
> お力をお貸し下さい。
>
> あるキャッシュサーバで、今まで引けていた特定ドメインのサーバのAレコードが突然引けなくなってしまいました。
> 現象が発生しているのは、1ドメイン (ここではxxxx.co.jpとする) のみです。
> 他のキャッシュサーバでは正しく引けています。
> 暫定対応として、このドメインに関する問い合わせを、他のキャッシュサーバに転送したところ、引けるようになりました。
>
> 引けなかったときの情報として、以下のトレースログ(DebugLevel=1)が残っています。
> 連続して何回(5、6回)引いても、まったく同じログが繰り返されます。
> これから、何か推測できることはないでしょうか?
>
> ログの内容:
> 1) datagram from [127.0.0.1].4576, fd 22, len 34
> 2) req: nlookup(mx.xxxx.co.jp) id 18663 type=1 class=1
> 3) req: found 'mx.xxxx.co.jp' as 'xxxx.co.jp' (cname=0)
> 4) sysquery: send -> [ns.yyyy.or.jp].53 dfd=4 nsid=36345 id=0 retry=1110859511
> 5) forw: forw -> [ns.yyyy.or.jp].53 ds=4 nsid=3695 id=18663 18ms retry 4sec
> 6) datagram from [ns.yyyy.or.jp].53, fd 4, len 34
> 7) datagram from [ns.yyyy.or.jp].53, fd 4, len 34
> 8) send_msg -> [127.0.0.1].4576 (UDP 22) id=18663
>
> ログ取得時の状況:
> ・キャッシュサーバは、BIND 8.2.2-P5-plus-patches です。
> ・引けない状態は一週間ほど続いていました。
> ・xxxx.co.jpドメインのNSサーバは、ns.xxxx.co.jp、ns.yyyy.or.jp の2サーバです。
> ・master−>ns.xxxx.co.jp、slave−>ns.yyyy.or.jp
> ・ns.xxxx.co.jpに直接問い合わせ(set norecurse)ると、値が返ります。
> ・ns.yyyy.or.jpに直接問い合わせ(set norecurse)ても、xxxx.co.jpドメインの情報は返せませんでした。(サーバ自体は生きている)
> ・xxxx.co.jpドメインのSOAレコードは以下の通りです。
> serial = 2005030701
> refresh = 10800 (3 hours)
> retry = 3600 (1 hour)
> expire = 604800 (7 days)
> default TTL = 3600 (1 hour)
> ・20050314 から気が付くまでの1週間ほど、現象が発生していた様です。(ひけなくなった)
> ・何回引いても、上記のログとまったく同じログが出ます。
> ・同じバージョンのサーバ2台で同時に同様の現象が出ていました。
> ・同じバージョンでも、現象の出ないサーバもあります。
>
> このログと状況から推測したこと:
> ・serialが3/7日で、現象が3/14日から発生していることより、slaveのゾーンが腐ったことが影響しているかも。
> ・ログの3行目より、mx.xxxx.co.jpはキャッシュされていない。
>
> 分からないこと:
> A) "ns.yyyy.or.jp"に問い合わせて、"ns.xxxx.co.jp"に問い合わせないのはなぜでしょう?RTTの偏り?
>   1週間はおかしいか?(ただし、一週間ずっと上記ログが出ていたかどうかは分からない。)
> B) 4行目の "sysquery: send ->" は何をしているのでしょうか?
> C) "ns.yyyy.or.jp"は、xxxx.co.jpドメインについて Lame 状態であるが、キャッシュサーバはLameであると認識しないのでしょうか?
>   (8.2.2では、Lameサーバは転送対象のNSにはならないので、ns.yyyy.or.jpにアクセスしないはず)
> D) 引けない原因として推測されることは何かありますか?
>
>
> DBダンプなどは取得できておらず、情報が少なくて申し訳ありませんが、
> お分かりになる部分だけでも構いませんので、よろしくお願いします。
> 渡辺

以上、何かの足しになれば幸いです。

------------------------------------------------------------
鈴木 康弘(SUZUKI Yasuhiro)
yasu@xxxxx
http://www31.ocn.ne.jp/~yswww/myself/

投稿者 xml-rpc : 2005年4月 7日 19:33
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/9990
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。