歡迎來到Linux教程網
Linux教程網
Linux教程網
Linux教程網
您现在的位置: Linux教程網 >> UnixLinux >  >> Linux編程 >> Linux編程

Eclipse中調試Nutch2.0

很早官方就開始了nutch2.0的研發,而一直都是兩線同時研發的,一個是普通版,一個是gora版本,也就是nutch2.0。下面介紹下怎樣把項目導進eclipse中,這裡我們的存儲層使用nosql cassandra,本來想先使用mysql試試,發現啟動不了爬蟲,調試下發現原來還沒有完全實現gora的sql數據庫的存儲功能,所以選擇易用的cassandra作為測試。

需要知識:nutch基本知識,cassandra基本知識,用maven管理項目,用git管理下載項目。

需要工具:安裝有maven插件的eclipse(插件可以通過eclipse的market place下載)

1.下載導入項目

先從https://github.com/apache/nutch/tree/release-2.0把nutch2.0項目下載下來(windows點zip按鈕會打包下載)

eclipse中把項目導進去(file-import-maven-existing maven project)

2.添加依賴

導進去後src/java和src/test已經是源文件目錄了,還必須把

/conf

/src/plugin/protocol-httpclient/src/java

/src/plugin/urlfilter-domain/src/java

/src/plugin/lib-http/src/java

/src/plugin/protocol-http/src/java

/src/plugin/urlfilter-suffix/src/java

/src/plugin/urlfilter-regex/src/java

/src/plugin/lib-regex-filter/src/java

/src/plugin/urlnormalizer-basic/src/java

/src/plugin/urlnormalizer-pass

/src/javasrc/plugin/urlnormalizer-regex/src/java

/src/plugin/scoring-opic/src/java

/src/plugin/parse-html/src/java

這些基本插件添加到classpath中,parse-html還需要用到額外的jar包,

還要nekohtml、tagsoup這兩個jar包。我們在下面的pom中添加。

3.添加額外的jar包到pom文件

添加下面依賴到pom.xml文件,去掉原有的gora-core和gora-sql依賴

  1. <dependency>  
  2.                        <groupId>org.apache.gora</groupId>  
  3.                        <artifactId>gora-core</artifactId>  
  4.                        <version>0.2</version>  
  5.                        <optional>true</optional>  
  6.                </dependency>               
  7.                 
  8.                <dependency>  
  9.                        <groupId>org.apache.gora</groupId>  
  10.                        <artifactId>gora-cassandra</artifactId>  
  11.                        <version>0.2</version>  
  12.                        <optional>true</optional>  
  13.                </dependency>  
  14.               
  15.             <!-- html parser dependency -->  
  16.             <dependency>  
  17.                 <groupId>net.sourceforge.nekohtml</groupId>  
  18.                 <artifactId>nekohtml</artifactId>  
  19.                 <version>1.9.15</version>  
  20.             </dependency>  
  21.             <dependency>  
  22.                 <groupId>org.ccil.cowan.tagsoup</groupId>  
  23.                 <artifactId>tagsoup</artifactId>  
  24.                 <version>1.2</version>  
  25.             </dependency>  

如果下載不了gora的包,可以到http://gora.apache.org/releases.html#Download下載後放到maven倉庫。

Nutch的詳細介紹:請點這裡
Nutch的下載地址:請點這裡

Copyright © Linux教程網 All Rights Reserved