程序和進程
程序是為了完成某種任務而設計的軟件,比如OpenOffice是程序。什麼是進程呢?進程就是運行中的程序。
一個運行著的程序,可能有多個進程。
進程分類;
進程一般分為交互進程、批處理進程和守護進程三類。
值得一提的是守護進程總是活躍的,一般是後台運行,守護進程一般是由系統在開機時通過腳本自動激活啟動或超級管理用戶root來啟動。比如在Redhat中,我們可以定義httpd 服務器的啟動腳本的運行級別,此文件位於/etc/init.d目錄下,文件名是httpd,/etc/init.d/httpd 就是httpd服務器的守護程序,當把它的運行級別設置為3和5時,當系統啟動時,它會跟著啟動。
[root@localhost ~]# chkconfig --level 35httpd on
由於守護進程是一直運行著的,所以它所處的狀態是等待請求處理任務
進程的屬性;
進程ID(PID):是唯一的數值,用來區分進程;
父進程和父進程的ID(PPID);
啟動進程的用戶ID(UID)和所歸屬的組(GID);
進程狀態:狀態分為運行R、休眠S、僵屍Z;
進程執行的優先級;
進程所連接的終端名;
進程資源占用:比如占用資源大小(內存、CPU占用量);
父進程和子進程;
他們的關系是管理和被管理的關系,當父進程終止時,子進程也隨之而終止。但子進程終止,父進程並不一定終止。比如httpd服務器運行時,我們可以殺掉其子進程,父進程並不會因為子進程的終止而終止。
在進程管理中,當我們發現占用資源過多,或無法控制的進程時,應該殺死它,以保護系統的穩定安全運行;
【2】進程管理
對於Linux進程的管理,是通過進程管理工具實現的,比如ps、kill、pgrep等工具;
ps 監視進程工具
ps 為我們提供了進程的一次性的查看,它所提供的查看結果並不動態連續的;如果想對進程時間監控,應該用top工具;
ps 的參數說明
ps 提供了很多的選項參數,常用的有以下幾個;
l 長格式輸出;
u 按用戶名和啟動時間的順序來顯示進程;
j 用任務格式來顯示進程;
f 用樹形格式來顯示進程;
a 顯示所有用戶的所有進程(包括其它用戶);
x 顯示無控制終端的進程;
r 顯示運行中的進程;
ww 避免詳細參數被截斷;
我們常用的選項是組合是aux 或lax,還有參數f的應用;
ps aux 或lax輸出的解釋;
USER 進程的屬主;
PID 進程的ID;
PPID 父進程;
%CPU 進程占用的CPU百分比;
%MEM 占用內存的百分比;
PRI 代表這個程序『可被執行的優先級』
NI 進程的NICE值,數值大,表示較少占用CPU時間;
VSZ 進程虛擬大小;
RSS 駐留中頁的數量;
TTY 終端ID
STAT 進程狀態
D 不間斷的睡眠(usually IO)
R 正在運行中在隊列中可過行的;
S 處於休眠狀態;
T 停止或被追蹤;
W 進入內存交換(從內核2.6開始無效);
X 死掉的進程(從來沒見過);
Z 僵屍進程;
< 優先級高的進程
N 優先級較低的進程
L 有些頁被鎖進內存;
s 進程的領導者(在它之下有子進程);
l is multi-threaded (using CLONE_THREAD, likeNPTL pthreads do)
+ 位於後台的進程組;
WCHAN 正在等待的進程資源;
START 啟動進程的時間;
TIME 進程消耗CPU的時間;
COMMAND命令的名稱和參數;
ps 應用舉例;
實例一:ps aux 最常用
[root@localhost ~]# ps -aux | more
可以用 | 管道和 more 連接起來分頁查看
[root@localhost ~]# ps -aux > ps001.txt
[root@localhost ~]# more ps001.txt
這裡是把所有進程顯示出來,並輸出到ps001.txt文件,然後再通過more 來分頁查看
實例二:和grep 結合,提取指定程序的進程;
[root@localhost ~]# ps aux | grep httpd
root4187 0.0 1.3 24236 10272? Ss 11:550:00 /usr/sbin/httpd
apache 41890.0 0.6 24368 4940? S11:55 0:00 /usr/sbin/httpd
apache 41900.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
apache 41910.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
apache 41920.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
apache 41930.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
apache 41940.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
apache 41950.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
apache 41960.0 0.6 24368 4932? S11:55 0:00 /usr/sbin/httpd
root4480 0.0 0.0 5160 708pts/3 R+ 12:20 0:00 grep httpd
實例二:父進和子進程的關系友好判斷的例子
[root@localhost ~]# ps auxf | grep httpd
root4484 0.0 0.0 5160 704pts/3 S+ 12:210:00\_ grep httpd
root4187 0.0 1.3 24236 10272? Ss 11:550:00 /usr/sbin/httpd
apache 41890.0 0.6 24368 4940? S11:55 0:00 \_ /usr/sbin/httpd
apache 41900.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
apache 41910.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
apache 41920.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
apache 41930.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
apache 41940.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
apache 41950.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
apache 41960.0 0.6 24368 4932? S11:55 0:00 \_ /usr/sbin/httpd
這裡用到了f參數;父與子關系一目了然;
pgrep
pgrep 是通過程序的名字來查詢進程的工具,一般是用來判斷程序是否正在運行。在服務器的配置和管理中,這個工具常被應用,簡單明了;
用法:
#pgrep 參數選項程序名
常用參數
-l 列出程序名和進程ID;
-o 進程起始的ID;
-n 進程終止的ID;
舉例:
[root@localhost ~]# pgrep -lo httpd
4557 httpd
[root@localhost ~]# pgrep -ln httpd
4566 httpd
[root@localhost ~]# pgrep -l httpd
4557 httpd
4560 httpd
4561 httpd
4562 httpd
4563 httpd
4564 httpd
4565 httpd
4566 httpd
[root@localhost ~]# pgrep httpd
4557
4560
4561
4562
4563
4564
4565
4566
終止進程的工具 kill 、killall、pkill
終止一個進程或終止一個正在運行的程序,一般是通過 kill 、killall、pkill、xkill 等進行。比如一個程序已經死掉,但又不能退出,這時就應該考慮應用這些工具。
另外應用的場合就是在服務器管理中,在不涉及數據庫服務器程序的父進程的停止運行,也可以用這些工具來終止。為什麼數據庫服務器的父進程不能用這些工具殺死呢?原因很簡單,這些工具在強行終止數據庫服務器時,會讓數據庫產生更多的文件碎片,當碎片達到一定程度的時候,數據庫就有崩潰的危險。比如mysql服務器最好是按其正常的程序關閉,而不是用pkillmysqld 或killall mysqld 這樣危險的動作;當然對於占用資源過多的數據庫子進程,我們應該用kill 來殺掉。
kill
kill的應用是和ps 或pgrep 命令結合在一起使用的;
kill 的用法:
kill [信號代碼] 進程ID
注:信號代碼可以省略;我們常用的信號代碼是 -9 ,表示強制終止;
舉例:
[root@localhost ~]# ps auxf|grep httpd
root4939 0.0 0.0 5160 708pts/3 S+ 13:100:00\_ grep httpd
root 4830 0.1 1.3 24232 10272? Ss 13:020:00 /usr/sbin/httpd
apache 4833 0.0 0.6 24364 4932? S13:02 0:00 \_ /usr/sbin/httpd
apache 4834 0.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
apache 4835 0.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
apache 4836 0.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
apache 4837 0.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
apache 4838 0.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
apache 48390.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
apache 48400.0 0.6 24364 4928? S13:02 0:00 \_ /usr/sbin/httpd
我們查看httpd 服務器的進程;您也可以用pgrep -lhttpd 來查看;
我們看上面例子中的第二列,就是進程PID的列,其中4830是httpd服務器的父進程,從4833-4840的進程都是它4830的子進程;如果我們殺掉父進程4830的話,其下的子進程也會跟著死掉;
[root@localhost ~]# kill 4840 注:殺掉4840這個進程;
[root@localhost ~]# ps -auxf|grep httpd 注:查看一下會有什麼結果?是不是httpd服務器仍在運行?
[root@localhost ~]# kill4830 注:殺掉httpd的父進程;
[root@localhost ~]# ps -aux |grep httpd注:查看httpd的其它子進程是否存在,httpd服務器是否仍在運行?
對於僵屍進程,可以用kill -9 來強制終止退出;
比如一個程序已經徹底死掉,如果kill 不加信號強度是沒有辦法退出,最好的辦法就是加信號強度 -9 ,後面要接殺父進程;比如;
[root@localhost ~]# ps aux |grep gaim
beinan 50319.0 2.3 104996 17484 ?S 13:23 0:01 gaim
root5036 0.0 0.0 5160 724pts/3 S+ 13:24 0:00 grep gaim
或
[root@localhost ~]# pgrep -l gaim
5031 gaim
[root@localhost ~]# kill -9 5031
3.2 killall
killall 通過程序的名字,直接殺死所有進程,咱們簡單說一下就行了。
用法:killall 正在運行的程序名
killall 也和ps或pgrep 結合使用,比較方便;通過ps或pgrep 來查看哪些程序在運行;
舉例:
[root@localhost beinan]# pgrep -l gaim
2979 gaim
[root@localhost beinan]# killall gaim
3.3 pkill
pkill 和killall 應用方法差不多,也是直接殺死運行中的程序;如果您想殺掉單個進程,請用kill 來殺掉。
應用方法:
#pkill 正在運行的程序名
舉例:
[root@localhost beinan]# pgrep -l gaim
2979 gaim
[root@localhost beinan]# pkill gaim
top 監視系統任務的工具;
和ps 相比,top是動態監視系統任務的工具,top 輸出的結果是連續的;
top 命令用法及參數;
top 調用方法:
top 選擇參數
參數:
-b 以批量模式運行,但不能接受命令行輸入;
-c 顯示命令行,而不僅僅是命令名;
-d N 顯示兩次刷新時間的間隔,比如 -d 5,表示兩次刷新間隔為5秒;
-i 禁止顯示空閒進程或僵屍進程;
-n NUM 顯示更新次數,然後退出。比如 -n 5,表示top更新5次數據就退出;
-p PID 僅監視指定進程的ID;PID是一個數值;
-q 不經任何延時就刷新;
-s 安全模式運行,禁用一些效互指令;
-S 累積模式,輸出每個進程的總的CPU時間,包括已死的子進程;
交互式命令鍵位:
space 立即更新;
c 切換到命令名顯示,或顯示整個命令(包括參數);
f,F 增加顯示字段,或刪除顯示字段;
h,? 顯示有關安全模式及累積模式的幫助信息;
k 提示輸入要殺死的進程ID,目的是用來殺死該進程(默人信號為15)
i 禁止空閒進程和僵屍進程;
l 切換到顯法負載平均值和正常運行的時間等信息;
m 切換到內存信息,並以內存占用大小排序;
n 提示顯示的進程數,比如輸入3,就在整屏上顯示3個進程;
o,O 改變顯示字段的順序;
r 把renice 應用到一個進程,提示輸入PID和renice的值;
s 改變兩次刷新時間間隔,以秒為單位;
t 切換到顯示進程和CPU狀態的信息;
A 按進程生命大小進行排序,最新進程顯示在最前;
M 按內存占用大小排序,由大到小;
N 以進程ID大小排序,由大到小;
P 按CPU占用情況排序,由大到小
S 切換到累積時間模式;
T 按時間/累積時間對任務排序;
W 把當前的配置寫到~/.toprc中;
top 應用舉例;
[root@localhost ~]# top
然後根據前面所說交互命令按個嘗試一下就明白了,比如按M,就按內存占用大小排序
當然您可以把top的輸出傳到一個文件中;
[root@localhost ~]# top > mytop.txt
然後我們就可以查看mytop文件,以慢慢的分析系統進程狀態;
此圖是剛進入top的基本視圖,我們來結合這個視圖講解各個數據的含義。
第一行:
10:01:23 — 當前系統時間
126 days, 14:29 — 系統已經運行了126天14小時29分鐘(在這期間沒有重啟過)
2 users — 當前有2個用戶登錄系統
load average: 1.15, 1.42, 1.44 — load average後面的三個數分別是1分鐘、5分鐘、15分鐘的負載情況。
loadaverage數據是每隔5秒鐘檢查一次活躍的進程數,然後按特定算法計算出的數值。如果這個數除以邏輯CPU的數量,結果高於5的時候就表明系統在超負荷運轉了。
第二行:
Tasks — 任務(進程),系統現在共有183個進程,其中處於運行中的有1個,182個在休眠(sleep),stoped狀態的有0個,zombie狀態(僵屍)的有0個。
第三行:cpu狀態
6.7% us — 用戶空間占用CPU的百分比。
0.4% sy — 內核空間占用CPU的百分比。
0.0% ni — 改變過優先級的進程占用CPU的百分比
92.9% id — 空閒CPU百分比
0.0% wa — IO等待占用CPU的百分比
0.0% hi — 硬中斷(Hardware IRQ)占用CPU的百分比
0.0% si — 軟中斷(Software Interrupts)占用CPU的百分比
在這裡CPU的使用比率和windows概念不同,如果你不理解用戶空間和內核空間,需要充充電了。
第四行:內存狀態
8306544k total — 物理內存總量(8GB)
7775876k used — 使用中的內存總量(7.7GB)
530668k free — 空閒內存總量(530M)
79236k buffers — 緩存的內存量(79M)
第五行:swap交換分區
2031608k total — 交換區總量(2GB)
2556k used — 使用的交換區總量(2.5M)
2029052k free — 空閒交換區總量(2GB)
4231276k cached — 緩沖的交換區總量(4GB)
這裡要說明的是不能用windows的內存概念理解這些數據,如果按windows的方式此台服務器“危矣”:8G的內存總量只剩下530M的可用內存。Linux的內存管理有其特殊性,復雜點需要一本書來說明,這裡只是簡單說點和我們傳統概念(windows)的不同。
第四行中使用中的內存總量(used)指的是現在系統內核控制的內存數,空閒內存總量(free)是內核還未納入其管控范圍的數量。納入內核管理的內存不見得都在使用中,還包括過去使用過的現在可以被重復利用的內存,內核並不把這些可被重新使用的內存交還到free中去,因此在linux上free內存會越來越少,但不用為此擔心。
如果出於習慣去計算可用內存數,這裡有個近似的計算公式:第四行的free + 第四行的buffers + 第五行的cached,按這個公式此台服務器的可用內存:530668+79236+4231276 = 4.7GB。
對於內存監控,在top裡我們要時刻監控第五行swap交換分區的used,如果這個數值在不斷的變化,說明內核在不斷進行內存和swap的數據交換,這是真正的內存不夠用了。
第六行是空行
第七行以下:各進程(任務)的狀態監控
PID — 進程id
USER — 進程所有者
PR — 進程優先級
NI — nice值。負值表示高優先級,正值表示低優先級
VIRT — 進程使用的虛擬內存總量,單位kb。VIRT=SWAP+RES
RES — 進程使用的、未被換出的物理內存大小,單位kb。RES=CODE+DATA
SHR — 共享內存大小,單位kb
S — 進程狀態。D=不可中斷的睡眠狀態 R=運行 S=睡眠 T=跟蹤/停止 Z=僵屍進程
%CPU — 上次更新到現在的CPU時間占用百分比
%MEM — 進程使用的物理內存百分比
TIME+ — 進程使用的CPU時間總計,單位1/100秒
COMMAND — 進程名稱(命令名/命令行)