本文講解關於Linux下socket連接下的心跳機制的簡單過程。
1,在長連接下,有可能很長一段時間都沒有數據往來。
理論上說,這個連接是一直保持連接的,但是實際情況中,如果中間節點出現什麼故障是難以知道的。
有的節點(防火牆)會自動把一定時間之內沒有數據交互的連接給斷掉。
在這個時候,就需要我們的心跳包了,用於維持長連接,保活
2,心跳包之所以叫心跳包是因為:它像心跳一樣每隔固定時間發一次,以此來告訴服務器,這個客戶端還活著。事實上這是為了保持長連接,至於這個包的內容,是沒有什麼特別規定的,不過一般都是很小的包,或者只包含包頭的一個空包。心跳包主要也就是用於長連接的保活和斷線處理。一般的應用下,判定時間在30-40秒比較不錯。如果實在要求高,那就在6-9秒。
3,下面為封裝好的心跳包函數,加入項目中參數設置一下即可
#include <netinet/tcp.h>
//參數解釋
//fd:網絡連接描述符
//start:首次心跳偵測包發送之間的空閒時間
//interval:兩次心跳偵測包之間的間隔時間
//count:探測次數,即將幾次探測失敗判定為TCP斷開
int set_tcp_keepAlive(int fd, int start, int interval, int count)
{
int keepAlive = 1;
if (fd < 0 || start < 0 || interval < 0 || count < 0) return -1; //入口參數檢查 ,編程的好習慣。
//啟用心跳機制,如果您想關閉,將keepAlive置零即可
if(setsockopt(fd,SOL_SOCKET,SO_KEEPALIVE,(void*)&keepAlive,sizeof(keepAlive)) == -1)
{
perror("setsockopt");
return -1;
}
//啟用心跳機制開始到首次心跳偵測包發送之間的空閒時間
if(setsockopt(fd,SOL_TCP,TCP_KEEPIDLE,(void *)&start,sizeof(start)) == -1)
{
perror("setsockopt");
return -1;
}
//兩次心跳偵測包之間的間隔時間
if(setsockopt(fd,SOL_TCP,TCP_KEEPINTVL,(void *)&interval,sizeof(interval)) == -1)
{
perror("setsockopt");
return -1;
}
//探測次數,即將幾次探測失敗判定為TCP斷開
if(setsockopt(fd,SOL_TCP,TCP_KEEPCNT,(void *)&count,sizeof(count)) == -1)
{
perror("setsockopt");
return -1;
}
return 0;
}
將想設置的參數傳入該函數,設置成功返回0,否則返回-1。設置成功以後,可以將fd交給select去監聽可讀可寫事件,如果select檢測到fd可讀且read返回錯誤,一般就能判定該fd對應的TCP連接已經異常斷開,調用close函數將fd關閉即可。
TCP連接非正常斷開的檢測(KeepAlive探測)
此處的”非正常斷開”指TCP連接不是以優雅的方式斷開,如網線故障等物理鏈路的原因,還有突然主機斷電等原因
有兩種方法可以檢測:1.TCP連接雙方定時發握手消息 2.利用TCP協議棧中的KeepAlive探測
第二種方法簡單可靠,只需對TCP連接兩個Socket設定KeepAlive探測。
從而得知連接已失效,客戶端程序便有機會及時執行清除工作、提醒用戶或重新連接。