歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux綜合 >> Linux資訊 >> 更多Linux

Linux平台的下載程序

  有許多網絡文件下載工具可以在Windows平台下很好地工作,如NetAnts、“網際快車”、TelePro等,還有像WebZip那樣功能強大的離線浏覽器。這些工具使我們可以在Windows環境下很輕松地下載網站上的文件、目錄、網站的一部分,甚至整個網站。然而在Linux環境下,這類工具卻很少。筆者通過自己的摸索,在集成開發環境KDevelop 1.2下實現了一個網站下載程序,它支持文件級的“多線程下載”和“斷點續傳”。下面本文分3部分介紹實現這一程序的基本技術。  基本原理  1.超級鏈接尋徑算法  要想靈活地下載一個網站的全部或部分內容,程序就必需具備從用戶指定的URL開始,沿著它所包含的超級鏈接遍歷整個網站的能力。在這個基礎上根據用戶的限制,篩選出所要下載的文件。  從“圖論”的角度分析,網站其實是一個由文件和超級鏈接組成的“連通有向圖”。文件是圖中的頂點,超級鏈接是有向邊。我們需要對這個有向圖進行“廣度優先遍歷”。為此,需要用一個隊列URLQueue來存放待訪問的目標。初始情況下,隊列中只含有用戶指定的那個URL。程序從隊頭取得下載目標的URL,如果它符合用戶的限制,就下載它指向的文件。分析此文件,找出其中包括的超級鏈接,生成新的下載目標的URL,然後將它們插入到隊列尾部。重復以上過程,直到隊列中沒有符合用戶限制的URL為止。  由於網站是一個“連通有向圖”,所以沿著超級鏈接,很可能回到已經訪問過的文件。為了避免程序出現死循環,要登記已經訪問過的目標。在分析下載文件的超級鏈接時,我們要將生成的新目標的URL與已經訪問過的進行比較,剔除會造成重復訪問的URL。為了提高查詢速度,我們采用了“哈希表”來存放從隊頭取出的URL。“哈希函數”可以采用將URL中的字符作為整型值相加,然後模一個質數的簡單方法來實現。在本文介紹的程序中使用了質數103。  2.多線程下載和斷點續傳  多線程下載和斷點續傳使用了同一個技術。HTTP協議允許客戶端在向服務器端發送下載一個文件的GET請求時,使用“Range: bytes=a1-a2"選項,要求服務器只傳送指定文件中從第a1個字節到a2個字節之間的部分內容。因此下載一個文件時,可以將其分成若干段,然後啟動多個線程,同時與服務器建立鏈接,分別傳送一個文件的多個部分。最後在本地將其拼接成一個完整的文件。由於從網上下載文件時,瓶頸是在服務器端和網絡傳輸過程中,所以采用多線程同時下載將大大提高下載速度。  當文件傳輸因出現問題而中斷時,程序可以將各個線程當前下載的進度和已經下載的內容當做“斷點信息”保存到文件中。用戶下一次下載同一目標時,程序可以根據文件中保留的斷點信息下載上次未完成的部分,然後將整個文件拼接起來,完成下載工作。這種技術對於在經常“掉線”的情況下下載大文件非常有利。因此,在當前流行的下載軟件中都采用了此項技術。  Linux如何啟動線程  1.定義一個以void *為參數、返回void *的函數。例如,為了啟動下載線程,需要定義如下函數:  void * start(void * arg)  {  ((CWebCopy *) arg)->DownLoad();  return arg;  }  2.在需要啟動線程時,只要三條語句。例如,啟動下載線程的代碼如下:  #include   pthread_t tid;  pthread_create(&tid,NULL,start,arg);  部分程序的實現  由於篇幅有限,在這裡我們只給出主控程序(圖1)和下載控制線程(圖2)的流程圖,並給出下載線程的算法描述。  圖1 主控程序的流程圖  圖2 下載控制線程的流程圖  以下是下載線程中三個關鍵性函數的算法描述(假定這三個函數都被封裝在CwebCopy類中)。  int CWebCopy ::DownLoad(char * host,char *path,int a1,int a2,BYTE * buf)  {  //本函數從host所指定的HTTP服務器上下載路徑為path的文件中從第a1字節到第a2字節的內容,與host所指定的主機的80端口(HTTP端口)建立流式鏈接,共嘗試5次   bool connected = false;  int sock; //用於存放套接字描述符  for(i = 0; i < 5 ; i++){  if((sock = Connect(host,80)) < 0)  sleep(1);  else{  connected = true;  break;  }   }   if(connected){  //向指定的HTTP服務器發送GET請求,下載當前指定路徑下的文件的一部分  


Send(sock,“GET path%cHost: %s%cRange: bytes=%d-%d%c”,path,10,host,10,a1,a2,10);   int inflen,index = 0;  while(1){  strUCt timeval tv;  tv.tv_sec = 1;  tv.tv_usec = 0;  //檢查套接字是否接收到了數據,嘗試20次,每次間隔1秒   int readen;  readen =ReadEn(sock,tv,20);   //如果套接字中20秒內仍然沒有數據,則認為超時  if(readen < 1) return -1;   //接收數據,並存放在信息緩沖區中  inflen=read(sock,(buf+index),a2-a1); // 如果此文件所需部分已經下載結束  if(inflen <= 0) break;  }  return 0;  }  else return -1;  }  int CWebCopy ::Send(int sock,char *fmt,...)  {  //本函數將指定的字符串發送到sock所指向的遠程HTTP服務器  char BUF[1024];  va_list argptr;  //處理可變個數參數   va_start(argptr,fmt);  //將參數整理成字符串後放入BUF中   vsprintf(BUF,fmt,argptr);  va_end(argptr);  //將BUF中的字符串發送到sock所指向的遠程服務器  return send(sock ,BUF,strlen(BUF),0);  }  int CWebCopy ::ReadEn(int sock,struct timeval tv,int tryloop)  {  //利用select函數檢驗套接字sock,如果套接字接收到數據則返回“讀使能”,如果出現“內部中斷”以外的錯誤,則返回 “讀禁止”  fd_set rfdset;  FD_ZERO(&rfdset);  FD_SET(sock,&rfdset);  int readen = 0;  for(int i = 0; i < tryloop; i++){  readen = select(m_sock+1,&rfdset,NULL,NULL,&tv);  if(readen>0(readen< 0 && errno !=EINTR))  break;  sleep(1);  }  return readen;  }



return send(sock ,BUF,strlen(BUF),0);  }  int CWebCopy ::ReadEn(int sock,struct timeval tv,int tryloop)  {  //利用select函數檢驗套接字sock,如果套接字接收到數據則返回“讀使能”,如果出現“內部中斷”以外的錯誤,則返回 “讀禁止”  fd_set rfdset;  FD_ZERO(&rfdset);  FD_SET(sock,&rfdset);  int readen = 0;  for(int i = 0; i < tryloop; i++){  readen = select(m_sock+1,&rfdset,NULL,NULL,&tv);  if(readen>0(readen< 0 && errno !=EINTR))  break;  sleep(1);  }  return readen;  }



Copyright © Linux教程網 All Rights Reserved