1. 文件系統是否滿
方法: df –k 可以以K為單位檢查文件系統的使用率。(90%以上,需要調整)
2. 檢查系統出錯日志 使用errpt |more來檢查
清除現有的log: Errclear 0
3. 檢查系統合法/非法登陸情況
使用Last命令來檢查來自登陸的地方。
4. 檢查系統是否有巨大的Core文件生成
使用 find / -name core –print來檢查。對Core文件,一般直接刪除就可以了。
5. 系統性能檢查:
a) CPU性能:使用Vmstat, topas來檢查
b) 內存使用情況:也是使用topas, vmstat來檢查
c) 檢查IO平衡使用情況:使用iostat來檢查
d) 交換空間使用情況:使用lsps –a來檢查
6. Mail檢查
7. Diag 一個月一次
補充兩點:
1。硬件檢查,檢查各指示燈狀態和各物理設備的可用情況。
2。進程檢查,檢查是或有死進程。
用who -d 查出一些死進程!
AIX日常指令和常用操作
一:開機登錄
在開機之前,先檢查電源是否插好;然後,按下前面板上白色電源開關後,主機會進入硬件自檢和引導階段;此時,前面板上的液晶會有代碼跳動,每一個代碼表示自檢或引導的不同階段,最後在引導結束時,前面板液晶上的代碼消失,彩顯或終端上有顯示,進入系統初始化和登錄提示。如果主機停在某一代碼上,引導不下去(大於半小時),說明系統可能有故障,請與IPACS 聯系,並把代碼一起報給我們。
二:關機
1)關閉應用程序
2)HACMP軟件,先用smit clstop關閉HACMP。
3)命令行打“shutdown -F”進關機,顯示器上出現“Halt Completed”可按下前面板
上白色電源開關,關電源。
如果需要關機後重新引導,打“shutdown -Fr”命令。
三:基本定義
1) Physical Volume(PV)
Physical Volume就是指硬盤,在AIX中用hdiskx表示。
7133磁盤陣列中的某個硬盤用pdiskx表示,pdiskx對應的AIX操作系統中Physical Volume用hdiskx表示。
用lspv命令來看一下PV與VG對應關系
用lsdev -Cc disk命令看一下硬盤狀態,Available 表示硬盤可用,Defined 表示物理硬盤
找不到,只有邏輯定義。
2)Volume Group(VG)
Volume Group 是由多個Physical Volume組成的集合。
Physical Partition是VG分配空間的最小單位。
AIX操作系統所在的卷組就是rootvg
可用lsvg 查看VG信息,
用lsvg -o 查看打開的卷組。
3)Logical Volume(LV)和FileSystem(FS)
Logical Volume和Filesystem是在卷組上劃分的空間,不能跨多個卷組而且只能擴大不
能縮小。
Filesystem是在LV上建的,使用時,需mount在AIX某一目錄上。
可用lsvg -l VG_Name來看VG 上所有的LV和FS
用 df 命令來看Filesystem 使用情況
用mount命令來看已mount的Filesystem
四: 日常系統管理
AIX通過smit 工具 (smitty是字符界面)來進行系統管理。
1)增加修改刪除用戶
smit user
2)增加修改刪除卷組
smit vg
3)增加修改刪除邏輯卷
smit lv
4)增加修改刪除文件系統
smit fs
5)網絡設置和查詢
smit tcpip
?Minimal Configuration
?填入IP地址,子網掩碼,網關等參數;
Start Now改為Yes
netstat -i / netstat -in 查看網卡interface狀態和參數
6)日常維護
平時需用 df 和 errpt 檢查一下文件系統使用率和有無新的錯誤日志。
如果文件系統使用率大於90%,需擴大該文件系統。
命令行打errpt後,可以顯示類似下列錯誤日志;
ERROR_IDENTIFIER TIMESTAMP T CL RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0101000070 I 0 errdemon Error logging turned off
0E017ED1 0405131090 P H mem2 Memory failure
9DBCFDEE 0101000070 I 0 errdemon Error logging turned on
038F2580 0405131090 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130990 I O OPERATOR OPERATOR NOTIFICATION
其中,TIMESTAMP代表日期,以MMDDhhmmYY格式;如0405131090表示1990年
4月5日13時10分
T(Type)一欄中,P表示永久性錯誤,T 表示零時性錯誤,U 表示不能決定是什麼錯誤
,I 表示信息而非錯誤。
CL(CLass)一欄中,H表示硬件錯誤,S 表示硬件錯誤,O 表示通知操作員。
如果 T(Type)一欄中是P且 CL(CLass)一欄中是H,表示較嚴重錯誤,需跟IBM聯系。
五:系統備份(僅rootvg備份)
備份是用戶的責任,可用下列步驟備份rootvg,其它數據需另外備份。系統備份要定
時做,一般1--2月做一次,凡rootvg數據有變化(如系統參數修改)要馬上備份。最好用幾合帶子輪流備份。備份帶上要標明備份時間和內容。
1)用root用戶登錄
2)mount rootvg下需備份的文件系統
3)smit mksysb
?選擇備份介質
Expand /tmp filesystem if needed 改為 Yes
六:診斷
diag
->System Verification
?選擇需診斷的硬件設備
七:常用命令
set -o vi 類似PC DOS 中doskey命令,先按ESC鍵再按幾下k鍵,可重現以前打過的
命令。
export TERM=vt100/ibm3153/lft 設置終端類型
lsdev -C和lscfg -v 顯示硬件配置
1、df -k文件系統空間使用情況
2、lsvg 列出系統中所有vg的名字
lsvg -o 列出激活vg名字
lsvg vgname列出指定vg的詳細信息
lsvg -l vgname列出指定vg上的lv情況
3、lsdev -P -H列出AIX支持的設備(即預定義odm數據庫中的設備對象)
lsdev -C 列出AIX支持的設備已定義的odm數據庫中的設備對象
lsdev -Cc xxx列出定制odm數據庫中某個設備對象的信息
例如:
lsdev -Cc disk
lsdev -Cc tape
lscfg列出系統上已安裝的資源的配置信息
lscfg -vl列出某個設備的VPD信息
例如:
lscfg -vl ent1
lscfg -vl hdisk1
lscfg -l xxx\*列出設備的不帶VPD的相關信息
lscfg -l proc\*
lscfg -l hdisk\*
4、修改文件及目錄的屬性
4.1 chmod
例如:
chmod 765 xxx 修改文件xxx屬性為765
chmod -R 765 XXX 修改目錄xxx及其下子目錄及文件屬性為765
4.2 chown
例如:chown user:usergroup xxx修改文件xxx的屬主為user:usergroup
chmod -R user:usergroup xxx 修改目錄xxx及其下子目錄及文件屬主為user:usergroup
5、系統性能檢測工具
vmstat內存、pagespace、CPU等監測(vmstat 2 10每隔2秒鐘執行一次,共執行10次)
iostat 硬盤I/O監測
netstat網卡監測
topas綜合檢測工具
6、ps進程察看
ps -ef|grep 進程名
例如:
ps -ef|grep sap
ps -ef|grep oracle
ps -ef|grep tsm
ps -ef|grep cluster
其他的指令可參照smitty工具來操作
Basis學習
showmount -e ip
lsdev -Cc adapter|grep ent 查看網卡
lsdv -Cc if 查看網卡接口
ifconfig -a
netstat -in 看網卡IP信息
netstat -rn 路由
lssrc -t telnet
lssrc -t ftp
禁止遠程通過 root 登陸,修改 /etc/security/user 文件,在root選項將 false 作為 rlogin 的值
進行AIX 的日常維護,需要關注哪些日志文件?
文件 描述 建議
core 和 snapcore 由應用產生的 dump 文件, 可用於診斷錯誤 可刪除
nohup.out nohup 命令的輸出結果 可刪除
.xerrors X11的輸出結果 可截短
mbox 用戶郵箱中的郵件 可截短
smit.log 和 smit.script 用戶使用smit 命令後的日志 可適當保留最後1000行,或刪除
/var/adm/wtmp 記錄用戶的登錄信息,是二進制文件, 用who 命令來閱讀其內容 根據需要保留60天中有用的內容,其余刪除
/etc/security/failedlogin 記錄用戶失敗的登錄信息,是二進制文件,用who 命令來閱讀其內容 可根據需要保留60天中有用的內容,其余刪除
/var/adm/sulog 用戶使用su 命令的日志 可根據需要保留60天中有用的內容,其余刪除
/var/adm/cron/log cron的日志 可截短
/var/tmp/snmpd.log snmp 監控進程日志 可截短
/var/tmp/dpid.log
/var/tmp/dpid2.log
/var/tmp/hostmidb.log
/var/tmp/muxatmd snmp 子系統日志 可截短
dead.letter 未成功的郵件 可刪除
trcfile trace 實用程序的輸出 可刪除
/var/adm/messages 用於記錄syslog進程的日志 可適當保留最後1000行,或刪除
/etc/shutdown.log 系統關機過程日志,用shutdown -l 命令產生 可適當保留最後1000行,或刪除
如何自動殺死UNIX僵死的進程
作者:曹蘇華
人保系統的計算機應用,已從單機運行方式過渡到以公司為中心的集中處理方式,各縣級支公司通過廣域網、遠程telnet登錄到市公司主機。由於網絡的原因,有些進程會突然僵死。這些僵死的進程,會消耗系統大量的資源,直接影響機器的正常運行。為了實時地、自動地殺死這些僵死的進程,本人編寫了 Shell程序Autokill。
Autokill程序腳本
#
# autokill
#
ps -ef | awk ‘{ print $1,$2,$7,$8 }‘ |
awk ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }‘ |
awk ‘!/root/ { print "kill -9 " $2}‘ > /tmp/k_kill
chmod 777 /tmp/k_kill
/tmp/k_kill
Autokill程序解釋
首先,用UNIX 命令 ps -ef 查看進程狀態,通過管道傳送給 awk 進行處理。
在第一個 awk 中,獲取進程的用戶標識(UID)、進程號(PID)、進程占用CPU時間(Time)、進程執行命令(CMD)四個字段的值。
在第二個awk 中,通過模式匹配,選取所有匹配模式的行。在awk 中,[0-9]匹配0~9中任一個數字,[1-9]匹配1~9中任何一個數字,連用兩個[0-9][0-9]則匹配一個任意兩位數,因此[0-9][0-9]:[0-9][0-9]:[1-9][0-9]則匹配 Time時間字段值,查找占用 CPU 時間超過 10 秒的進程;如果要查找占用 CPU 時間超過半小時的進程,則把模式改成 [0-9][0-9]:[3-9][0-9]:[0-9][0-9]。
在第三個 awk 中,用 “!/root/ ”過濾掉由 Root用戶生成的進程,並進行Shell語言拼裝,並將最終結果定向到文件 /tmp/k_kill。在 /tmp/k_kill 文件中,都是形如 kill -9 123 的Shell命令。
在Autokill程序的最後,執行 /tmp/k_kill 殺死進程。
查看中間結果
Autokill程序采用了管道處理方式,如要查看中間結果,則可以依次斷開管道。
第一步執行:ps -ef
第二步執行:ps -ef | awk ‘{ print $1,$2,$7,$8 }‘
第三步執行:ps -ef | awk ‘{ print $1,$2,$7,$8 }‘ |
awk ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }‘
第四步執行:ps -ef | awk ‘{ print $1,$2,$7,$8 }‘ |
awk ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }‘ |
awk ‘!/root/ { print "kill -9 " $2}‘ > /tmp/k_kill
最終查看 /tmp/k_kill 文件。
再有,如只想自動殺死由某一用戶執行的進程(如jdc3206),只要將模式“!/root/”改成 “/jdc3206/”即可;如只想殺死執行某一命令的進程(如 xinmu ),只要將模式“!/root/” 改成“/xinmu/”即可。
最後用 crontab -e 增加一個 cron 作業。
0,30 * * * * /tmp/autokill
Kill命令失靈怎麼辦
經過以上步驟,系統每隔半小時執行一次/tmp/autokill。但在UNIX系統中,有些僵死的進程會莫名其妙地不能用 Kill 命令殺死,這就需要重新引導機器,一方面清除系統垃圾,另一方面需要對資源重新分配。采用中心運行模式,機器不能隨意開關機,總要等到夜晚沒有用戶使用機器時,才能重新開關機。為此編寫一個Shell程序,讓機器自動開關機。以下是Autoreboot 程序腳本。
#
# autoreboot
#
PATH=/bin:/etc:/usr/bin:/tcb/bin:/usr/informix/bin
INFORMIXDIR=/usr/informix
INFORMIXSERVER=da3206a
ONCONFIG=onconfig.yca
export PATH INFORMIXDIR INFORMIXSERVER ONCONFIG
onmode -ky
sync
sync
reboot
Autoreboot程序前 5 行,是設置 Informix系統環境,命令 onmode -ky 是關閉 Informix Online數據庫,命令 sync 是UNIX 文件系統超級塊回寫,命令 reboot 是UNIX 系統中的系統重新啟動命令。
用 crontab -e 命令,增加一行 cron 作業30 6 * * * /tmp/auto_boot。
該命令使系統每天6:30 重新開關機。如果使用的是雙機系統,則要在兩台機器上,都要進行重新開關機,時間定成一致。