很早官方就開始了nutch2.0的研發,而一直都是兩線同時研發的,一個是普通版,一個是gora版本,也就是nutch2.0。下面介紹下怎樣把項目導進eclipse中,這裡我們的存儲層使用nosql cassandra,本來想先使用mysql試試,發現啟動不了爬蟲,調試下發現原來還沒有完全實現gora的sql數據庫的存儲功能,所以選擇易用的cassandra作為測試。
需要知識:nutch基本知識,cassandra基本知識,用maven管理項目,用git管理下載項目。
需要工具:安裝有maven插件的eclipse(插件可以通過eclipse的market place下載)
1.下載導入項目
先從https://github.com/apache/nutch/tree/release-2.0把nutch2.0項目下載下來(windows點zip按鈕會打包下載)
eclipse中把項目導進去(file-import-maven-existing maven project)
2.添加依賴
導進去後src/java和src/test已經是源文件目錄了,還必須把
/conf
/src/plugin/protocol-httpclient/src/java
/src/plugin/urlfilter-domain/src/java
/src/plugin/lib-http/src/java
/src/plugin/protocol-http/src/java
/src/plugin/urlfilter-suffix/src/java
/src/plugin/urlfilter-regex/src/java
/src/plugin/lib-regex-filter/src/java
/src/plugin/urlnormalizer-basic/src/java
/src/plugin/urlnormalizer-pass
/src/javasrc/plugin/urlnormalizer-regex/src/java
/src/plugin/scoring-opic/src/java
/src/plugin/parse-html/src/java
這些基本插件添加到classpath中,parse-html還需要用到額外的jar包,
還要nekohtml、tagsoup這兩個jar包。我們在下面的pom中添加。
3.添加額外的jar包到pom文件
添加下面依賴到pom.xml文件,去掉原有的gora-core和gora-sql依賴
如果下載不了gora的包,可以到http://gora.apache.org/releases.html#Download下載後放到maven倉庫。
Nutch的詳細介紹:請點這裡
Nutch的下載地址:請點這裡