- 軟件(jiàn)大小:7.10M
- 軟件語言:中文(wén)
- 軟件類型:國產軟件
- 軟件類別:免費軟件 / 編程工具
- 更新時間:2017-03-27 15:12
- 運行環境:WinAll, WinXP, Win7
- 軟(ruǎn)件等級:
- 軟件廠商:
- 官方網站:暫無


17.75M/中文/6.6
10.45M/英文/10.0
7.83M/中文/3.0
113.28M/英文/10.0
46.96M/英文/2.5
Apache Nutch是一款用於java編程(chéng)工具的搜(sōu)索引擎軟件,快速完成(chéng)java數據編程,智能檢索java資源便捷使用。快來綠色資源網下(xià)載體驗吧!
Nutch是一個開源Java 實現的搜索(suǒ)引擎。它提供了我們運行自己的(de)搜(sōu)索引擎所需的全部工具。包括全文搜(sōu)索和Web爬蟲。Nutch誕生於2002年8月,是Apache旗(qí)下(xià)的一個用(yòng)Java實現的開源搜索引擎項目,自Nutch1.2版本之(zhī)後,Nutch已經從搜索引擎演化為網絡爬(pá)蟲(chóng),接著(zhe)Nutch進一(yī)步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區別在於2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。Nutch 致力於讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎.
在創建一個WebDB之後(步驟1), “產生/抓取(qǔ)/更新”循環(步驟3-6)根據一些種子URLs開始啟動。當這個循(xún)環徹底結束,Crawler根據(jù)抓取(qǔ)中生成的segments創建索引(步(bù)驟7-10)。在進行重複URLs清(qīng)除(步驟9)之前,每個(gè)segment的索引都是獨立的(步驟8)。最終,各個(gè)獨立(lì)的segment索引被合並為一個最終的索引index(步驟10)。
其中有一個細節問題,Dedup操作主(zhǔ)要用於(yú)清除segment索引中的重複URLs,但是我們知道,在WebDB中是不(bú)允(yǔn)許重(chóng)複(fù)的URL存在的,那麽為什麽這裏還要(yào)進行清除呢?原因(yīn)在於抓取的更新。比方說一個月之前(qián)你抓取過這些網頁,一個月後為了更新進行了(le)重新抓取,那麽舊的segment在沒有刪(shān)除之前(qián)仍然起作用,這個時候就需要在新舊segment之(zhī)間進行除(chú)重。
請描述您所遇到的錯誤,我們將(jiāng)盡快予以修正,謝謝!
*必填項,請輸入內容