Ядро 2.6.32-ovz-el-alt10 Не выключается VPS vzctl stop 1144 и все. В dmesg при этом: unregister_netdevice: waiting for lo to become free. Usage count = 2799 unregister_netdevice: waiting for lo to become free. Usage count = 2799 unregister_netdevice: waiting for lo to become free. Usage count = 2799 INFO: task vzmond/1144:19085 blocked for more than 120 seconds. "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message. vzmond/1144 D ffff8802157628d0 0 19085 2 0x00000000 ffff88017a301d40 0000000000000046 0000000000000000 ffff88021e4d2310 ffff88017a301cd0 ffffffff810564d6 ffff88021e4d2310 0000000105ff792f ffff880215762ea8 ffff88017a301fd8 000000000000efc8 ffff880215762ea8 Call Trace: [<ffffffff810564d6>] ? activate_task+0x96/0x150 [<ffffffff813ca335>] schedule_timeout+0x225/0x2f0 [<ffffffff81047d79>] ? __wake_up_common+0x59/0x90 [<ffffffff813c9fab>] wait_for_common+0x12b/0x180 [<ffffffff810573e0>] ? default_wake_function+0x0/0x20 [<ffffffff813ca0bd>] wait_for_completion+0x1d/0x20 [<ffffffffa03342ef>] fini_ve_netns+0x5f/0x70 [vzmon] [<ffffffffa03351b0>] env_cleanup+0xf0/0x180 [vzmon] [<ffffffffa03354c4>] vzmond_helper+0x54/0x70 [vzmon] [<ffffffff8100d30a>] child_rip+0xa/0x20 [<ffffffffa0335470>] ? vzmond_helper+0x0/0x70 [vzmon] [<ffffffff8100d300>] ? child_rip+0x0/0x20 unregister_netdevice: waiting for lo to become free. Usage count = 2799 и последняя строчка без перерыва повторяется через каждые секунд 30-60 Данная VPS подвергалось достаточно большой нагрузке по pps и были многократные превышения лимита privvmpages [root@ua25 slava]# cat /proc/bc/1144/resources kmemsize 2625010 223292318 402653184 402653184 0 lockedpages 0 0 32 32 0 privvmpages 55 200814 196608 196608 520520 shmpages 0 356 16384 16384 0 numproc 12 360 3000 3000 0 physpages 14061 280188 0 9223372036854775807 0 vmguarpages 0 0 196608 196608 0 oomguarpages 650 144671 196608 196608 0 numtcpsock 0 77471 9999999 9999999 0 numflock 0 6 9999999 9999999 0 numpty 0 4 16 16 0 numsiginfo 9 195 256 256 0 tcpsndbuf 99096 332651888 999999999 999999999 0 tcprcvbuf 0 1295568 9999999 9999999 0 othersockbuf 0 1206848 9999999 9999999 0 dgramrcvbuf 0 4624 132096 132096 0 numothersock 25 216 256 256 0 dcachesize 1924492 2097728 2097728 2097728 0 numfile 20 14550 9999999 9999999 0 numiptent 17 3258 5000 5000 0 swappages 645 3483 9223372036854775807 9223372036854775807 0 Ситуация повторяется вот уже каждый день на протяжении 3 дней. При ребуте хардноды сервер зависает и помогает только кнопка ресет.
У меня не получается это повторить. Повесите багу на upstream?
(В ответ на комментарий №1) > У меня не получается это повторить. Повесите багу на upstream? Здается мне это все подземный стук, т.к. у меня нет конкретного сценария для воспроизведения проблемы. Есть HN с 2.6.32-ovz-el-alt10, есть VPS, которую досят. Т.е. условия экстремальные - LA за 100, процессы упираются в разнообразные лимиты и т.д. При попытке выключить - получаешь облом с вышеописанными данными в логах. В конце концов перенесли проблемную VPS на HN с ядром 2.6.18 и бранчем 5.1 и все нормализовалось (зависов нет). С чем идти в апстрим не ясно, кроме того что 2.6.32 хуже чем 2.6.18 :(
Подземные стуки с похожими симптомами происходят на разных vz-шных ядрах уже довольно давно: http://bugzilla.openvz.org/show_bug.cgi?id=1695 http://bugzilla.openvz.org/show_bug.cgi?id=1648 http://bugzilla.openvz.org/show_bug.cgi?id=1442 ... причем они регулярно их исправляют. Наверное, стоит повесить багу даже с такими симптомами.
(В ответ на комментарий №3) > Подземные стуки с похожими симптомами происходят на разных vz-шных ядрах > уже довольно давно: > http://bugzilla.openvz.org/show_bug.cgi?id=1695 > http://bugzilla.openvz.org/show_bug.cgi?id=1648 > http://bugzilla.openvz.org/show_bug.cgi?id=1442 > ... > причем они регулярно их исправляют. > > Наверное, стоит повесить багу даже с такими симптомами. Ок. Я попробую.
Хм, у меня пока вроде не ловилось...
(В ответ на комментарий №5) > Хм, у меня пока вроде не ловилось... У меня вылезла подобная проблема, только не на VPS, а на связке accel-ppp + vlan + pppoe. Можно поинтересоваться, у кого вылезла проблема, какие на тех серверах стоят сетевые карты? Есть подозрения, что виноват BroadCom'овский драйвер.