最近在學習爬蟲,早就聽說Python
寫爬蟲極爽(貌似pythoner說python都爽,不過也確實,python的類庫非常豐富,不用重復造輪子),還有一個強大的框架Scrapy
,於是決定嘗試一下。
要想使用Scrapy
第一件事,當然是安裝Scrapy
,嘗試了Windows
和Ubuntu
的安裝,本文先講一下 Ubuntu
的安裝,比Windows
的安裝簡單太多了。抽時間也會詳細介紹一下怎麼在Windows
下進行安裝。
官方介紹,在安裝Scrapy
前需要安裝一系列的依賴.
* Python 2.7
: Scrapy
是Python
框架,當然要先安裝Python
,不過由於Scrapy
暫時只支持 Python2.7
,因此首先確保你安裝的是Python 2.7
* lxml
:大多數Linux
發行版自帶了lxml
* OpenSSL
:除了windows
之外的系統都已經提供
* Python Package
: pip and setuptools. 由於現在pip
依賴setuptools
,所以安裝pip
會自動安裝setuptools
有上面的依賴可知,在非windows的環境下安裝 Scrapy的相關依賴是比較簡單的,只用安裝pip
即可。Scrapy
使用pip
完成安裝。
Scrapy
依賴是否安裝你可能會不放心自己的電腦是否已經安裝了,上面說的已經存在的依賴,那麼你可以使用下面的方法檢查一下,本文使用的是Ubuntu 14.04
。
Python
的版本$ python --version
如果看到下面的輸出,說明Python
的環境已經安裝,我這裡顯示的是Python 2.7.6
,版本也是2.7
的滿足要求。如果沒有出現下面的信息,那麼請讀者自行百度安裝Python
,本文不介紹Python
的安裝(網上一搜一堆)。
lxml
和OpenSSL
是否安裝假設已經安裝了Python
,在控制台輸入python
,進入Python
的交互環境。
然後分別輸入import lxml
和import OpenSSL
如果沒有報錯,說明兩個依賴都已經安裝。
python-dev
和libevent
python-dev
是linux
上開發python
比較重要的工具,以下的情況你需要安裝
* 你需要自己安裝一個源外的python類庫, 而這個類庫內含需要編譯的調用python api的c/c++文件
* 你自己寫的一個程序編譯需要鏈接libpythonXX.(a|so)
libevent
是一個時間出發的高性能的網絡庫,很多框架的底層都使用了libevent
上面兩個庫是需要安裝的,不然後面後報錯。使用下面的指令安裝
$sudo apt-get install python-dev
$sudo apt-get install libevent-dev
pip
因為Scrapy
可以使用pip
方便的安裝,因此我們需要先安裝pip
,可以使用下面的指令安裝pip
$ sudo apt-get install python-pip
pip
安裝Scrapy
使用下面的指令安裝Scrapy
。
$ sudo pip install scrapy
記住一定要獲得root
權限,否則會出現下面的錯誤。
至此scrapy
安裝完成,使用下面的命令檢查Scrapy
是否安裝成功。
$ scrapy version
顯示如下結果說明安裝成功,此處的安裝版本是1.02
CentOS 6.4 安裝搭建 Scrapy 0.22 環境 http://www.linuxidc.com/Linux/2015-08/120897.htm
如何在Ubuntu 14.04 LTS安裝網絡爬蟲工具:Scrapy http://www.linuxidc.com/Linux/2015-03/115306.htm
更多Ubuntu相關信息見Ubuntu 專題頁面 http://www.linuxidc.com/topicnews.aspx?tid=2