您现在的位置： Linux教程網 >> UnixLinux > >> Linux綜合 >> Linux資訊 >> 更多Linux

Linux平台的下載程序

　　有許多網絡文件下載工具可以在Windows平台下很好地工作，如NetAnts、“網際快車”、TelePro等，還有像WebZip那樣功能強大的離線浏覽器。這些工具使我們可以在Windows環境下很輕松地下載網站上的文件、目錄、網站的一部分，甚至整個網站。然而在Linux環境下，這類工具卻很少。筆者通過自己的摸索，在集成開發環境KDevelop　1.2下實現了一個網站下載程序，它支持文件級的“多線程下載”和“斷點續傳”。下面本文分3部分介紹實現這一程序的基本技術。　基本原理　 1．超級鏈接尋徑算法　要想靈活地下載一個網站的全部或部分內容，程序就必需具備從用戶指定的URL開始，沿著它所包含的超級鏈接遍歷整個網站的能力。在這個基礎上根據用戶的限制，篩選出所要下載的文件。　從“圖論”的角度分析，網站其實是一個由文件和超級鏈接組成的“連通有向圖”。文件是圖中的頂點，超級鏈接是有向邊。我們需要對這個有向圖進行“廣度優先遍歷”。為此，需要用一個隊列URLQueue來存放待訪問的目標。初始情況下，隊列中只含有用戶指定的那個URL。程序從隊頭取得下載目標的URL，如果它符合用戶的限制，就下載它指向的文件。分析此文件，找出其中包括的超級鏈接，生成新的下載目標的URL，然後將它們插入到隊列尾部。重復以上過程，直到隊列中沒有符合用戶限制的URL為止。　由於網站是一個“連通有向圖”，所以沿著超級鏈接，很可能回到已經訪問過的文件。為了避免程序出現死循環，要登記已經訪問過的目標。在分析下載文件的超級鏈接時，我們要將生成的新目標的URL與已經訪問過的進行比較，剔除會造成重復訪問的URL。為了提高查詢速度，我們采用了“哈希表”來存放從隊頭取出的URL。“哈希函數”可以采用將URL中的字符作為整型值相加，然後模一個質數的簡單方法來實現。在本文介紹的程序中使用了質數103。　 2．多線程下載和斷點續傳　多線程下載和斷點續傳使用了同一個技術。HTTP協議允許客戶端在向服務器端發送下載一個文件的GET請求時，使用“Range:　bytes=a1－a2"選項，要求服務器只傳送指定文件中從第a1個字節到a2個字節之間的部分內容。因此下載一個文件時，可以將其分成若干段，然後啟動多個線程，同時與服務器建立鏈接，分別傳送一個文件的多個部分。最後在本地將其拼接成一個完整的文件。由於從網上下載文件時，瓶頸是在服務器端和網絡傳輸過程中，所以采用多線程同時下載將大大提高下載速度。　當文件傳輸因出現問題而中斷時，程序可以將各個線程當前下載的進度和已經下載的內容當做“斷點信息”保存到文件中。用戶下一次下載同一目標時，程序可以根據文件中保留的斷點信息下載上次未完成的部分，然後將整個文件拼接起來，完成下載工作。這種技術對於在經常“掉線”的情況下下載大文件非常有利。因此，在當前流行的下載軟件中都采用了此項技術。　 Linux如何啟動線程　 1.定義一個以void　＊為參數、返回void　＊的函數。例如，為了啟動下載線程，需要定義如下函數：　 void　＊　start(void　＊　arg)　 {　 ((CWebCopy　＊)　arg)－>DownLoad();　 return　arg;　 }　 2．在需要啟動線程時，只要三條語句。例如，啟動下載線程的代碼如下：　＃include　　 pthread_t　tid;　 pthread_create(＆tid,NULL,start,arg);　部分程序的實現　由於篇幅有限，在這裡我們只給出主控程序（圖1）和下載控制線程（圖2）的流程圖，並給出下載線程的算法描述。　圖1　主控程序的流程圖　圖2　下載控制線程的流程圖　以下是下載線程中三個關鍵性函數的算法描述（假定這三個函數都被封裝在CwebCopy類中）。　 int　CWebCopy　::DownLoad(char　＊　host,char　＊path,int　a1,int　a2，BYTE　＊　buf)　 {　 //本函數從host所指定的HTTP服務器上下載路徑為path的文件中從第a1字節到第a2字節的內容，與host所指定的主機的80端口(HTTP端口)建立流式鏈接,共嘗試5次　　 bool　connected　=　false;　 int　sock;　//用於存放套接字描述符　 for(i　=　0;　i　<　5　;　i＋＋){　 if((sock　=　Connect(host,80))　<　0)　 sleep(1);　 else{　 connected　=　true;　 break;　 }　　 }　　 if(connected){　 //向指定的HTTP服務器發送GET請求,下載當前指定路徑下的文件的一部分　　

Send(sock,“GET　path％cHost:　％s％cRange:　bytes=％d－％d％c”,path,10,host,10,a1,a2,10);　　 int　inflen,index　=　0;　 while(1){　 strUCt　timeval　tv;　 tv.tv_sec　=　1;　 tv.tv_usec　=　0;　 //檢查套接字是否接收到了數據,嘗試20次,每次間隔1秒　　 int　readen;　 readen　=ReadEn(sock,tv,20);　　 //如果套接字中20秒內仍然沒有數據，則認為超時　 if(readen　<　1)　return　－1;　　 //接收數據,並存放在信息緩沖區中　 inflen=read(sock,(buf＋index),a2－a1);　//　如果此文件所需部分已經下載結束　 if(inflen　<=　0)　break;　 }　 return　0;　 }　 else　return　－1;　 }　 int　CWebCopy　::Send(int　sock，char　＊fmt,...)　 {　 //本函數將指定的字符串發送到sock所指向的遠程HTTP服務器　 char　BUF[1024];　 va_list　argptr;　 //處理可變個數參數　　 va_start(argptr,fmt);　 //將參數整理成字符串後放入BUF中　　 vsprintf(BUF,fmt,argptr);　 va_end(argptr);　 //將BUF中的字符串發送到sock所指向的遠程服務器　 return　send(sock　,BUF,strlen(BUF),0);　 }　 int　CWebCopy　::ReadEn(int　sock，struct　timeval　tv,int　tryloop)　 {　 //利用select函數檢驗套接字sock,如果套接字接收到數據則返回“讀使能”,如果出現“內部中斷”以外的錯誤,則返回　“讀禁止”　 fd_set　rfdset;　 FD_ZERO(＆rfdset);　 FD_SET(sock,＆rfdset);　 int　readen　=　0;　 for(int　i　=　0;　i　<　tryloop;　i＋＋){　 readen　=　select(m_sock＋1,＆rfdset,NULL,NULL,＆tv);　 if(readen>0(readen<　0　＆＆　errno　!=EINTR))　 break;　 sleep(1);　 }　 return　readen;　 }

return　send(sock　,BUF,strlen(BUF),0);　 }　 int　CWebCopy　::ReadEn(int　sock，struct　timeval　tv,int　tryloop)　 {　 //利用select函數檢驗套接字sock,如果套接字接收到數據則返回“讀使能”,如果出現“內部中斷”以外的錯誤,則返回　“讀禁止”　 fd_set　rfdset;　 FD_ZERO(＆rfdset);　 FD_SET(sock,＆rfdset);　 int　readen　=　0;　 for(int　i　=　0;　i　<　tryloop;　i＋＋){　 readen　=　select(m_sock＋1,＆rfdset,NULL,NULL,＆tv);　 if(readen>0(readen<　0　＆＆　errno　!=EINTR))　 break;　 sleep(1);　 }　 return　readen;　 }

上一篇文章： Linux平台jsp環境搭建(Tomcat4+jdk+postgreS)
下一篇文章： Linux啟動問題解決方法