查找瓶頸
您在度量中最感興趣的系統方面應該是 CPU 使用率和內存使用率。
有可能即使經過充分的調優工作後,CPU 仍不足以處理工作負載,在這種情況下,就需要進行 CPU 升級。與此類似,如果程序在經過調優後仍無法提供足夠內存的環境中運行,那麼必須增加內存容量。
如果性能問題由多個因素中的任何一個導致,那麼必須查找多個領域以消除每個問題。 首先,確定限制系統的資源:
CPU
內存
輸入/輸出 (I/O)
要執行此操作,請使用 vmstat 命令。vmstat 命令可生成一份詳細說明這三個區域的活動的簡明報告:
[code]> vmstat 1 10
輸出:
[code]kthr memory page faults cpu
----- ----------- ------------------------ ------------ -----------
r b avm fre re pi po fr sr cy in sy cs us sy id wa
0 0 189898 612 0 0 0 3 11 0 178 606 424 6 1 92 1
1 0 189898 611 0 1 0 0 0 0 114 4573 122 96 4 0 0
1 0 189898 611 0 0 0 0 0 0 115 420 102 99 0 0 0
1 0 189898 611 0 0 0 0 0 0 115 425 91 99 0 0 0
1 0 189898 611 0 0 0 0 0 0 114 428 90 99 0 0 0
1 0 189898 610 0 1 0 0 0 0 117 333 102 97 3 0 0
1 0 189898 610 0 0 0 0 0 0 114 433 91 99 1 0 0
1 0 189898 610 0 0 0 0 0 0 114 429 94 99 1 0 0
1 0 189898 610 0 0 0 0 0 0 115 437 94 99 0 0 0
1 0 189898 609 0 1 0 0 0 0 116 340 99 98 2 0 0
上一示例顯示了 CPU 限制型系統。這可視作是用戶 (us) 加上系統 (sy) CPU 值(等於或接近 100)。內存限制型系統顯示頁入 (pi) 和頁出 (po) 有效值。磁盤 I/O 限制型系統會顯示超過 10% 的 I/O 等待百分比 (wa)。有關 vmstat 的更多詳細信息可在AIX
調試命令中找到。
以下引用/content/3544540.html
Linux vmstat命令實戰詳解
vmstat命令是最常見的Linux/Unix監控工具,可以展現給定時間間隔的服務器的狀態值,包括服務器的CPU使用率,內存使用,虛擬內存交換情況,IO讀寫情況。這個命令是我查看Linux/Unix最喜愛的命令,一個是Linux/Unix都支持,二是相比top,我可以看到整個機器的CPU,內存,IO的使用情況,而不是單單看到各個進程的CPU使用率和內存使用率(使用場景不一樣)。
一般vmstat工具的使用是通過兩個數字參數來完成的,第一個參數是采樣的時間間隔數,單位是秒,第二個參數是采樣的次數,如:
root@ubuntu:~# vmstat 2 1
procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy id wa
1 0 0 3498472 315836 3819540 0 0 0 1 2 0 0 0 100 0
2表示每個兩秒采集一次服務器狀態,1表示只采集一次。
實際上,在應用過程中,我們會在一段時間內一直監控,不想監控直接結束vmstat就行了,例如:
root@ubuntu:~# vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy id wa
1 0 0 3499840 315836 3819660 0 0 0 1 2 0 0 0 100 0
0 0 0 3499584 315836 3819660 0 0 0 0 88 158 0 0 100 0
0 0 0 3499708 315836 3819660 0 0 0 2 86 162 0 0 100 0
0 0 0 3499708 315836 3819660 0 0 0 10 81 151 0 0 100 0
1 0 0 3499732 315836 3819660 0 0 0 2 83 154 0 0 100 0
這表示vmstat每2秒采集數據,一直采集,直到我結束程序,這裡采集了5次數據我就結束了程序。
好了,命令介紹完畢,現在開始實戰講解每個參數的意思。
r 表示運行隊列(就是說多少個進程真的分配到CPU),我測試的服務器目前CPU比較空閒,沒什麼程序在跑,當這個值超過了CPU數目,就會出現CPU瓶頸了。這個也和top的負載有關系,一般負載超過了3就比較高,超過了5就高,超過了10就不正常了,服務器的狀態很危險。top的負載類似每秒的運行隊列。如果運行隊列過大,表示你的CPU很繁忙,一般會造成CPU使用率很高。
b 表示阻塞的進程,這個不多說,進程阻塞,大家懂的。
swpd 虛擬內存已使用的大小,如果大於0,表示你的機器物理內存不足了,如果不是程序內存洩露的原因,那麼你該升級內存了或者把耗內存的任務遷移到其他機器。
free 空閒的物理內存的大小,我的機器內存總共8G,剩余3415M。
buff Linux/Unix系統是用來存儲,目錄裡面有什麼內容,權限等的緩存,我本機大概占用300多M
cache cache直接用來記憶我們打開的文件,給文件做緩沖,我本機大概占用300多M(這裡是Linux/Unix的聰明之處,把空閒的物理內存的一部分拿來做文件和目錄的緩存,是為了提高 程序執行的性能,當程序使用內存時,buffer/cached會很快地被使用。)
si 每秒從磁盤讀入虛擬內存的大小,如果這個值大於0,表示物理內存不夠用或者內存洩露了,要查找耗內存進程解決掉。我的機器內存充裕,一切正常。
so 每秒虛擬內存寫入磁盤的大小,如果這個值大於0,同上。
bi 塊設備每秒接收的塊數量,這裡的塊設備是指系統上所有的磁盤和其他塊設備,默認塊大小是1024byte,我本機上沒什麼IO操作,所以一直是0,但是我曾在處理拷貝大量數據(2-3T)的機器上看過可以達到140000/s,磁盤寫入速度差不多140M每秒
bi: Blocks received from a block device (blocks/s).——每秒從塊設備接收到的塊數,即讀塊設備。
bo: Blocks sent to a block device (blocks/s).——每秒發送到塊設備的塊數,即寫塊設備。bi和bo一般都要接近0,不然就是IO過於頻繁,需要調整。
cs 每秒上下文切換次數,例如我們調用系統函數,就要進行上下文切換,線程的切換,也要進程上下文切換,這個值要越小越好,太大了,要考慮調低線程或者進程的數目,例如在apache和nginx這種web服務器中,我們一般做性能測試時會進行幾千並發甚至幾萬並發的測試,選擇web服務器的進程可以由進程或者線程的峰值一直下調,壓測,直到cs到一個比較小的值,這個進程和線程數就是比較合適的值了。系統調用也是,每次調用系統函數,我們的代碼就會進入內核空間,導致上下文切換,這個是很耗資源,也要盡量避免頻繁調用系統函數。上下文切換次數過多表示你的CPU大部分浪費在上下文切換,導致CPU干正經事的時間少了,CPU沒有充分利用,是不可取的。
us 用戶CPU時間,我曾經在一個做加密解密很頻繁的服務器上,可以看到us接近100,r運行隊列達到80(機器在做壓力測試,性能表現不佳)。
sy 系統CPU時間,如果太高,表示系統調用時間長,例如是IO操作頻繁。
id 空閒 CPU時間,一般來說,id + us + sy = 100,一般我認為id是空閒CPU使用率,us是用戶CPU使用率,sy是系統CPU使用率。
wa 等待IO CPU時間。
那麼我們在知道是cpu瓶頸後怎樣判斷導致該問題的原因是因為cpu本身處理能力不足還是cpu運行了太負責的算法或代碼呢?我們可以通過以下方案來解決:
第一步:確認cpu瓶頸,使用vmstat 2 5 (表示2秒取一次數據,一共取5次),查看顯示的us 和 sy占比,如果達到或接近100%,說明確認cpu存在瓶頸
第二步:查看cpu中消耗資源最多的線程/進程, top 下可看到某個pid 耗的cpu ; 如 cpu 4 核,現在pid 使用率是200% 那很明顯是pid 耗的比較多
然後查看pid 下面的線程,如果線程處理的快且基本不耗cpu, 那就是cpu處理能力不夠
若線程處理的慢且耗用cpu,則說明運行復雜的算法 或 代碼邏輯有問題
我的程序在其內部創建並執行了多個線程,我怎樣才能在該程序創建線程後監控其中單個線程?我想要看到帶有它們名稱的單個線程詳細情況(如,CPU/內存使用率)。
線程是現代操作系統上進行並行執行的一個流行的編程方面的抽象概念。當一個程序內有多個線程被叉分出用以執行多個流時,這些線程就會在它們之間共享特定的資源(如,內存地址空間、打開的文件),以使叉分開銷最小化,並避免大量高成本的IPC(進程間通信)通道。這些功能讓線程在並發執行時成為一個高效的機制。
在Linux中,程序中創建的線程(也稱為輕量級進程,LWP)會具有和程序的PID相同的“線程組ID”。然後,各個線程會獲得其自身的線程 ID(TID)。對於Linux內核調度器而言,線程不過是恰好共享特定資源的標准的進程而已。經典的命令行工具,如ps或top,都可以用來顯示線程級 別的信息,只是默認情況下它們顯示進程級別的信息。
這裡提供了在Linux上顯示某個進程的線程的幾種方式。
方法一:PS
在ps命令中,“-T”選項可以開啟線程查看。下面的命令列出了由進程號為<pid>的進程創建的所有線程。
1.$ ps -T -p <pid>
“SID”欄表示線程ID,而“CMD”欄則顯示了線程名稱。
方法二: Top
top命令可以實時顯示各個線程情況。要在top輸出中開啟線程查看,請調用top命令的“-H”選項,該選項會列出所有Linux線程。在top運行時,你也可以通過按“H”鍵將線程查看模式切換為開或關。
1.$ top -H
2. 3
要讓top輸出某個特定進程<pid>並檢查該進程內運行的線程狀況:
$ top -H -p <pid>