linux 的 cgroups 還可以限制和監控進程的磁盤 io。這個功能通過 blkio 子系統實現。
blkio 子系統裡東西很多。不過大部分都是只讀的狀態報告,可寫的參數就只有下面這幾個:
復制代碼代碼如下:
blkio.throttle.read_bps_device
blkio.throttle.read_iops_device
blkio.throttle.write_bps_device
blkio.throttle.write_iops_device
blkio.weight
blkio.weight_device
這些都是用來控制進程的磁盤 io 的。很明顯地分成兩類,其中帶“throttle”的,顧名思義就是節流閥,將流量限制在某個值下。而“weight”就是分配 io 的權重。
“throttle”的那四個參數看名字就知道是做什麼用的。拿 blkio.throttle.read_bps_device 來限制每秒能讀取的字節數。先跑點 io 出來
復制代碼代碼如下:
dd if=/dev/sda of=/dev/null &
[1] 2750
用 iotop 看看目前的 io
復制代碼代碼如下:
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2750 be/4 root 66.76 M/s 0.00 B/s 0.00 % 68.53 % dd if=/dev/sda of=/dev/null
...
然後修改一下資源限制,把進程加入控制組
復制代碼代碼如下:
echo '8:0 1048576' >/sys/fs/cgroup/blkio/foo/blkio.throttle.read_bps_device
echo 2750 >/sys/fs/cgroup/blkio/foo/tasks
這裡的 8:0 就是對應塊設備的主設備號和副設備號。可以通過 ls -l 設備文件名查看。如
復制代碼代碼如下:
# ls -l /dev/sda
brw-rw----. 1 root disk 8, 0 Oct 24 11:27 /dev/sda
這裡的 8, 0 就是對應的設備號。所以,cgroups 可以對不同的設備做不同的限制。然後來看看效果
復制代碼代碼如下:
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2750 be/4 root 989.17 K/s 0.00 B/s 0.00 % 96.22 % dd if=/dev/sda of=/dev/null
...
可見,進程的每秒讀取立馬就降到了 1MB 左右。要解除限制,寫入如 “8:0 0” 到文件中即可
不過需要注意的是,這種方式對小於采樣間隔裡產生的大量 io 是沒用的。比如,就算在 1s 內產生一個每秒寫入 100M 的峰值,也不會因此被限制掉。
再看看 blkio.weight 。blkio 的 throttle 和 weight 方式和 cpu 子系統的 quota 和 shares 有點像,都是一種是絕對限制,另一種是相對限制,並且在不繁忙的時候可以充分利用資源,權重值的范圍在 10 – 1000 之間。
測試權重方式要麻煩一點。因為不是絕對限制,所以會受到文件系統緩存的影響。如在虛擬機中測試,要關閉虛機如我用的 VirtualBox 在宿主機上的緩存。如要測試讀 io 的效果,先生成兩個幾個 G 的大文件 /tmp/file_1,/tmp/file_2 ,可以用 dd 搞。然後設置兩個權重
復制代碼代碼如下:
# echo 500 >/sys/fs/cgroup/blkio/foo/blkio.weight
# echo 100 >/sys/fs/cgroup/blkio/bar/blkio.weight
測試前清空文件系統緩存,以免干擾測試結果
復制代碼代碼如下:
sync
echo 3 >/proc/sys/vm/drop_caches
在這兩個控制組中用 dd 產生 io 測試效果。
復制代碼代碼如下:
# cgexec -g "blkio:foo" dd if=/tmp/file_1 of=/dev/null &
[1] 1838
# cgexec -g "blkio:bar" dd if=/tmp/file_2 of=/dev/null &
[2] 1839
還是用 iotop 看看效果
復制代碼代碼如下:
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
1839 be/4 root 48.14 M/s 0.00 B/s 0.00 % 99.21 % dd if=/tmp/file_2 of=/dev/null
1838 be/4 root 223.59 M/s 0.00 B/s 0.00 % 16.44 % dd if=/tmp/file_1 of=/dev/null
兩個進程每秒讀的字節數雖然會不斷變動,但是大致趨勢還是維持在 1:5 左右,和設定的 weight 比例一致。blkio.weight_device 是分設備的。寫入時,前面再加上設備號即可。
blkio 子系統裡還有很多統計項
blkio.time
各設備的 io 訪問時間,單位毫秒
blkio.sectors
換入者或出各設備的扇區數
blkio.io_serviced
各設備中執行的各類型 io 操作數,分read、write、sync、async 和 total
blkio.io_service_bytes
各類型 io 換入者或出各設備的字節數
blkio.io_service_time
各設備中執行的各類型 io 時間,單位微秒
blkio.io_wait_time
各設備中各類型 io 在隊列中的 等待時間
blkio.io_merged
各設備中各類型 io 請求合並的次數
blkio.io_queued
各設備中各類型 io 請求當前在隊列中的數量
通過這些統計項更好地統計、監控進程的 io 情況
用
復制代碼代碼如下:echo 1 >blkio.reset_stats
可以將所有統計項清零。