Apache Nutch免費下載-Apache Nutch下載v2.3 最新版-綠色資源網

軟件介紹

Apache Nutch是一款用於java編程（chéng）工具的搜（sōu）索引擎軟件，快速完成（chéng）java數據編程，智能檢索java資源便捷使用。快來綠色資源網下（xià）載體驗吧！

軟件（jiàn）介紹

Nutch是一個開源Java 實現的搜索（suǒ）引擎。它提供了我們運行自己的（de）搜（sōu）索引擎所需的全部工具。包括全文搜（sōu）索和Web爬蟲。Nutch誕生於2002年8月，是Apache旗（qí）下（xià）的一個用（yòng）Java實現的開源搜索引擎項目，自Nutch1.2版本之（zhī）後，Nutch已經從搜索引擎演化為網絡爬（pá）蟲（chóng），接著（zhe）Nutch進一（yī）步演化為兩大分支版本：1.X和2.X，這兩大分支最大的區別在於2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎.

使（shǐ）用原（yuán）理

在創建一個WebDB之後(步驟1), “產生/抓取（qǔ）/更新”循環(步驟3－6)根據一些種子URLs開始啟動。當這個循（xún）環徹底結束，Crawler根據（jù）抓取（qǔ）中生成的segments創建索引（步（bù）驟7－10）。在進行重複URLs清（qīng）除（步驟9）之前，每個（gè）segment的索引都是獨立的（步驟8）。最終，各個（gè）獨立（lì）的segment索引被合並為一個最終的索引index（步驟10）。

其中有一個細節問題，Dedup操作主（zhǔ）要用於（yú）清除segment索引中的重複URLs，但是我們知道，在WebDB中是不（bú）允（yǔn）許重（chóng）複（fù）的URL存在的，那麽為什麽這裏還要（yào）進行清除呢？原因（yīn）在於抓取的更新。比方說一個月之前（qián）你抓取過這些網頁，一個月後為了更新進行了（le）重新抓取，那麽舊的segment在沒有刪（shān）除之前（qián）仍然起作用，這個時候就需要在新舊segment之（zhī）間進行除（chú）重。