- 軟件大小:72.27M
- 軟件語言:中(zhōng)文
- 軟件類型:國產軟件
- 軟件類別:免費軟件 / 編程工具
- 更(gèng)新時間:2017-06-30 09:45
- 運(yùn)行環(huán)境:WinAll, WinXP, Win7, Win8
- 軟件等級:
- 軟件廠商:
- 官方網(wǎng)站:http://ictclas.nlpir.org/
385.74M/中文/10.0
3.21M/中文/10.0
21.36M/中文/10.0
3.33M/中文/3.3
8.48M/中文/9.0
nlpir漢(hàn)語分詞係統是一款適用於編程行業的中文分詞工具。本軟件支持詞(cí)性標準、關(guān)鍵詞提取的等功能。主要適用於漢語言詞法分析研(yán)究。本站提供的是最新版的icTCLas2016分詞係統(tǒng)安裝程序。需要的用戶歡迎在綠色資源網下載使用。
中國科學院計算技(jì)術研究所在多年研究(jiū)工作(zuò)積累的基礎上(shàng),研製出(chū)了漢語(yǔ)詞法分析係統(tǒng)ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),主要功能包括(kuò)中文分詞;詞性(xìng)標注;命名實體識別;新詞識別;同時支持用戶詞典。我們先後精心打造五年,內核升(shēng)級7次,目前(qián)已經(jīng)升級到了ICTCLAS2009用戶詞典接口擴展用戶可以動態增加、刪除用戶(hù)詞典中的詞,調節分詞的(de)效(xiào)果。提高了用戶詞典使用的靈活性。
ICTCLAS詞法分析係統,從(cóng)2009年開始,為了和以前工作進行(háng)大(dà)的區隔(gé),並推廣NLPIR自然語言(yán)處理與信息檢索共享平台,調整命名為NLPIR分詞係統。張華平博(bó)士先後傾力打造十餘年,內核升級十餘次,先後獲得了2010年錢偉(wěi)長中文信息處理科學(xué)技術獎(jiǎng)一等獎,2003年(nián)國際SIGHAN分詞大賽綜合第一名,2002年國內973評測(cè)綜合第一(yī)名(míng)。全球用戶突破30萬,包括中國移動、華為、中搜、3721、NEC、中華商務網(wǎng)、矽穀動(dòng)力、雲南日(rì)報等企業(yè),清華(huá)大學、新疆大學、華南理工、麻省大(dà)學(xué)等機構:同時,ICTCLAS廣泛地被《科學時報》、《人(rén)民日報》海外版、《科技(jì)日報》等多家媒體報道。您可以訪問Google進一(yī)步了解(jiě)ICTCLAS的應用情(qíng)況。
1.指紋提取
根據文章(zhāng)的內容,結構,詞語間的關係(xì),分析出能夠表示該文章的語義指紋,使用數字序列表示。
2.分詞粒度可調
可以控製分詞結果的粒(lì)度(dù)。共享(xiǎng)版本提供兩種分(fèn)詞粒度(dù),標準粒度和粗粒(lì)度,滿足不同用戶(hù)的需求。
3.用戶詞典接口擴展
用戶可以(yǐ)動態增加、刪除用戶詞典中的詞,調節分詞(cí)的效果。提高了用戶詞典(diǎn)使用的靈活性(xìng)。
4.詞性標注功能加強
多種(zhǒng)標注級的選(xuǎn)擇,係統可供選擇的標注級有:計算所(suǒ)一級標注級,計算所二級標注集,北大一級標注集(jí),北(běi)大二級標注集。
5.關鍵詞提取
自動抽取出能很好地代(dài)表文檔主題(tí)的若幹個詞或(huò)短語(yǔ)。關鍵詞抽取技術廣泛應用於信息檢索、文本分(fèn)類/聚類、信息過濾、文檔摘要等各種智能文本信息處理領域,具有很(hěn)好的應用價值。
6.新詞發現與自適應分詞功能
從較長的文本內容中,基於信息交叉熵自(zì)動發現新特征語言,並自適應測試語料的(de)語言概率分布模型,實現自適應(yīng)分(fèn)詞。
7.微博分詞功能:
對博主ID進行nr標示,對轉發的會(huì)話進行(háng)自動分割標示(標示為ssession),URL以及Email進行自動標引。
請描述您所遇(yù)到的錯誤,我(wǒ)們將盡快予以修正,謝謝!
*必填項,請輸入內容