2011年12月27日

[ubuntu-jp:3971]「too many files open in system」で困っております。

「too many files open in system」で困っております。

ubuntu 11.04 で Samba 3.5.8 のサーバにしているホストで、リブートしてから
一日程度でおかしくなり、コンソールからログインしようとしても、他のホスト
からsshでログインしようとしても「too many files open in system」と出てロ
グインを拒否されるという状態になるようになってしまいました。

当初は電源永押しでリブートするほかなかったのですが、webminだと「others」

→「commnand shell」でrebootできることが分かったので、多少、気が楽になり
ました。

原因、対策、調査のヒントについてアドバイスいただけないでしょうか?

* nfs で他のホストと連絡しあっているので、それも問題かもしれません。あ
とはシステムメールを飛ばすためのメールサーバも入っています。

ーーー

調査して分かった現象は下記の通りです。

date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr で、どのタイミングで
ファイルのハンドルを消費しているのかを調べた。

(1)リブートの直後からしばらくは
「lsof | wc -l」 > 「cat /proc/sys/fs/file-nr」で正常。

[tk@xxxxx ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:08:48 JST
1754 ← 1754:「lsof | wc -l」
1024 0 100106 ← 1024:「cat /proc/sys/fs/file-nr」

(2)30分ほど経つと「lsof | wc -l」 < 「cat /proc/sys/fs/file-nr」と
逆転してしまう。その後はどんどん増えていく。

[tk@xxxxx ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:29:05 JST
1936
1056 0 100106

[tk@xxxxx ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:40:04 JST
1938 ← 1938:「lsof | wc -l」
5728 0 100106 ← 5728:「cat /proc/sys/fs/file-nr」

[tk@xxxxx ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 20:47:03 JST
2114
10048 0 100106

[tk@xxxxx ~]$ date ; sudo lsof | wc -l ; cat /proc/sys/fs/file-nr
2011年 12月 26日 月曜日 23:25:13 JST
2217
29280 0 100106

(3)逆転が始まった(20:29:05 〜 20:40:04)あたりの syslog を見ても、よ
く分からない。

Dec 26 20:22:02 EeePC-35 dovecot: pop3-login: Login: user=<tk>, method=PLAIN, rip=192.168.1.12, lip=192.168.1.135, TLS
Dec 26 20:22:02 EeePC-35 dovecot: POP3(tk): Disconnected: Logged out top=0/0, retr=0/0, del=0/607, size=1459761
Dec 26 20:25:01 EeePC-35 CRON[1622]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Dec 26 20:26:57 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain' ← ★何?
Dec 26 20:26:57 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
Dec 26 20:35:01 EeePC-35 CRON[1723]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
Dec 26 20:40:04 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'
Dec 26 20:40:04 EeePC-35 rpc.idmapd[843]: nss_getpwnam: name '0' does not map into domain 'localdomain'

参考にしたサイト

http://javadave.blogspot.com/2005_06_01_archive.html

http://www.mjmwired.net/kernel/Documentation/sysctl/fs.txt

take_tk = kumagai hidetake

投稿者 xml-rpc : 2011年12月27日 01:36
役に立ちました?:
過去のフィードバック 平均:(0) 総合:(0) 投票回数:(0)
本記事へのTrackback: http://hoop.euqset.org/blog/mt-tb2006.cgi/107758
トラックバック
コメント
コメントする




画像の中に見える文字を入力してください。