一次服務器宕機後的日志分析
在這裡先吐槽一下,NND寫好的報告突然消失了,唉,難道是昨天看片的原因,360什麼的果然是不可靠的啊,算了。
根據/va/log/message分析10月11日之前系統還是能正常提供服務,如果是服務導致的系統宕機則會產生其他日志,10月11日19:44:20系統啟動長生日志。初步判斷可能是硬件或者系統其他原因。系統重啟之後業務還是能夠正常運行說明其他的服務或者是配置應該沒有出錯,查看登陸日志排除入侵和人為的因素導致系統宕機,判斷為硬件或者系統其他原因,但是服務器指示燈沒有報錯,硬盤內存電源主板都是在正常工作說明還得細致分析。
Oct 6 04:03:02 epmttetla syslogd 1.4.1: restart.
Oct 1119:44:20 epmttetla syslogd 1.4.1: restart.
Oct 1119:44:20 epmttetla kernel: klogd 1.4.1, log source = /proc/kmsg started.
Oct 1119:44:20 epmttetla kernel: Linux version 2.6.18-164.el5(
[email protected])(gcc version 4.1.2 20080704 (Red Hat 4.1.2-46)) #1 SMP Tue Aug 18 15:51:48 EDT2009
Oct 11 19:44:20epmttetla kernel: Command line: ro root=LABEL=/ rhgb quiet
Oct 11 19:44:20epmttetla kernel: BIOS-provided physical RAM map:
Oct11 19:44:20 epmttetla kernel: PNP: No PS/2 controller found. Probing portsdirectly。 初步判斷是內核對雙核支持的不完善,或者是系統內核其他問題,但是對應該不會導致系統宕機,這些報錯的地方都不是致命錯誤,也不是核心自身可以探測到的錯誤,也就是說核心初始化自己的時候,莫名其妙的就宕了。可能是是硬件的關系,可行的測試方法: 1、把主板的電池哪下來,再按上去,並保證能正常,在看系統啟動的情況。2、若1不行,把各個硬件逐個更換,分別看情況。3、若1、2都不行,則需判斷其他服務是否出現報錯導致服務器宕機。以上都是看網上別人分析,個人覺得系統內核可能是一個出錯的原因,查看所有的日志判斷該系統上線時間不是很久,權限不夠啊,不能拿到更多的東西來分析是否是系統業務導致的服務停止從而導致系統宕機。
Oct 11 19:44:20 epmttetlakernel: usbcore: registered new driver hiddev
Oct 11 19:44:20epmttetla kernel: usbcore: registered new driver usbhid
Oct 11 19:44:20epmttetla kernel: drivers/usb/input/hid-core.c: v2.6:USB HID core driver
Oct 1119:44:20 epmttetla kernel: PNP: No PS/2 controller found. Probing portsdirectly.
Oct 11 19:44:20epmttetla kernel: Failed to disable AUX port, but continuing anyway... Is thisa SiS?
Oct 11 19:44:20epmttetla kernel: If AUX port is really absent please use the 'i8042.noaux'option.
Oct 11 19:44:20epmttetla kernel: serio: i8042 KBD port at 0x60,0x64 irq 1
Oct 11 19:44:20epmttetla kernel: mice: PS/2 mouse device common for all mice
Oct 11 19:44:20epmttetla kernel: md: md driver 0.90.3 MAX_MD_DEVS=256, MD_SB_DISKS=27
Oct 11 19:44:20 epmttetlakernel: md: bitmap version 4.39
Oct 11 19:44:20epmttetla kernel: TCP bic registered
硬盤smart報錯,判斷可能是當業務訪問量過大時,硬盤讀寫速度過快,導致系統宕機。而硬盤使用的時間快要超過它自身的生命周期,服務器啟動後硬盤指示燈沒有報警,但硬盤smart報錯不會導致服務器指示燈報警,建議准備備份硬盤,一個一個更換硬盤保證服務的正常提供和防止數據的丟失。其實這也只是可能,服務器只有兩塊硬盤,估計是做了RAID1,上面跑了個tomcat還有mysql,業務訪問量過大的時候會不會出現硬盤假死呢?反正現在服務器是正常運行著,備盤在庫房也應該有,祈禱吧,數據別丟失就可以。
Oct 11 19:47:27smartd version 5.38 [x86_64-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Oct 11 19:47:27epmttetla smartd[6384]: Home page is
http://smartmontools.sourceforge.net/
Oct 11 19:47:27epmttetla smartd[6384]: Opened configuration file
/etc/smartd.conf
Oct 11 19:47:27epmttetla smartd[6384]: Configuration file /etc/smartd.conf
was parsed, foundDEVICESCAN, scanning devices
Oct 11 19:47:27epmttetla smartd[6384]: Problem creating device name scan list
Oct 11 19:47:27epmttetla smartd[6384]: Device: /dev/sda, opened
Oct 1119:47:27 epmttetla smartd[6384]: Device: /dev/sda, IE (SMART) not enabled, skipdevice Try 'smartctl -s on /dev/sda' to turn on SMART features
Oct 1119:47:27 epmttetla smartd[6384]: Monitoring 0 ATA and 0 SCSI devices
Oct 1119:47:27 epmttetla smartd[6386]: smartd has fork()ed into background mode. NewPID=6386.
Oct 11 19:47:28epmttetla avahi-daemon[6324]: Server startup complete. Host name isepmttetla.local. Local service cookie is 417669660.
Oct 11 19:47:29epmttetla avahi-daemon[6324]: Service "SFTP File Transfer onepmttetla" (/services/sftp-ssh.service) successfully established.
Oct 11 19:47:30epmttetla kernel: mtrr: type mismatch for f9000000,400000 old: write-back new:write-combining
Oct 11 19:47:30epmttetla kernel: mtrr: type mismatch for f9000000,1000000 old: write-back new:write-combining
Oct 11 19:47:31epmttetla pcscd: winscard.c:304:SCardConnect() Reader E-Gate 0 0 Not Found
Oct 11 19:47:31epmttetla last message repeated 3 times
Oct 12 21:40:01epmttetla auditd[5661]: Audit daemon rotating log files