weka下載 最新軟件|熱(rè)門排行|軟件分類|軟件專題|廠商大全

您的位(wèi)置: 首頁編程開發數據庫(kù)類 → weka軟件(數據挖掘) v3.8.0 官方最新版

weka軟件(數(shù)據挖掘)

v3.8.0 官方最新版 weka軟(ruǎn)件(數據挖掘) 網友評分:8

同類相關(guān)軟件

軟件介紹

軟件標(biāo)簽: weka 數據挖掘(jué)

weka是一款功能強大的數(shù)據挖掘軟件,這款軟件具有、分類、回歸(guī)、聚類、關聯分析、數據預處理、評估等特色功能,是數據挖(wā)掘(jué)分析的必備工具,需要的朋友歡迎來綠色(sè)資源網免費下載使用。

weka官方介紹

Weka的全名是懷卡托智(zhì)能分析環境(Waikato Environment for Knowledge Analysis),是一(yī)款免費的,非商業化(huà)(與之(zhī)對應的是SPSS公司商(shāng)業數據挖掘產品--Clementine )的,基(jī)於JAVA環境下開源的機器學習(machine learning)以及數據挖掘(data mining)軟件。它和它的源代(dài)碼可在其(qí)官方網站(zhàn)下載(zǎi)。有趣的是,該軟件的縮寫(xiě)WEKA也是New Zealand獨有的(de)一種鳥名,而Weka的主要開發者(zhě)同時恰好來自New Zealand的the University of Waikato。

weka下(xià)載

weka軟件功能(néng)介紹

原理與實現

聚類分析中的“類”(cluster)和前麵分類的“類”(class)是不(bú)同的,對cluster更加準確的(de)翻譯應該是“簇”。聚(jù)類的任務(wù)是把 所有的實例分配到若幹(gàn)的簇,使得同一個簇的實例聚集(jí)在一個簇中心的周(zhōu)圍(wéi),它(tā)們之間距離的比較近;而不同簇實例之間的距離比較遠。對於由數(shù)值型屬性刻畫的實 例來說,這個距離通常指歐氏距離。

模型應用

現在我們要用生成的模型對那些待預測的數(shù)據集進行預測了。注意待預測數據集和訓練用數據集各個屬性的設置必須是一致的。即使你沒有待預測數據集的Class屬性的值,你也要添加這(zhè)個屬性,可以(yǐ)將該屬性在各(gè)實例上的值均設成缺失值。

在“Test Opion”中選擇“Supplied test set”,並且“Set”成你要應用模型的數據集,這裏是“bank-new.arff”文件。

現在,右鍵點擊“Result list”中剛產生(shēng)的那一項,選(xuǎn)擇(zé)“Re-evalsuate model on current test set”。右邊顯示結(jié)果的(de)區域中會增加一些內容,告訴你該模型應用在這(zhè)個數據集上表現將如何(hé)。如(rú)果你的Class屬性都是些缺失值(zhí),那(nà)這些(xiē)內容是無意(yì)義 的,我們關注的是模型在新(xīn)數據集上的預測值。

現在點擊右鍵菜單中的“Visualize classifier errors”,將彈出一(yī)個新窗(chuāng)口(kǒu)顯示一些有關預測誤差的散點(diǎn)圖。點擊這個新窗口中的“Save”按(àn)鈕,保存一個Arff文件。打開(kāi)這個文件可以看到(dào)在倒 數第二個位置多了一個屬性(predictedpep),這個屬性上的值就是模型對每個實例的預測值。

建模結果

OK,選上“Cross-validation”並在“Folds”框填(tián)上“10”。點“Start”按鈕開始讓算法生成決策樹模型。很快(kuài),用文 本表示(shì)的一棵決(jué)策樹,以及(jí)對這個決策(cè)樹的誤差分析等等(děng)結果出現在(zài)右邊的“Classifier output”中。同時左下的“Results list”出現了一(yī)個項目(mù)顯示剛才的時間和算法名稱。如(rú)果換一個模型或者換個(gè)參數,重新“Start”一次,則“Results list”又會多出一項。

weka關聯規則(zé)又稱購物欄分析(xī)

目前,WEKA的關聯(lián)規則分析功能僅能用來(lái)作示範,不適合用來(lái)挖掘大型數據集。

我們打算對(duì)前麵的“bank-data”數據作關(guān)聯規(guī)則的(de)分析。用“Explorer”打開“bank-data-final.arff”後,切 換到“Associate”選項卡。默認關聯規則分析是用Apriori算法,我們就用這個算法,但是點“Choose”右邊的文本框修改默認的參數,彈 出的窗口中點“More”可以看到各參數的說明。

背景知識

首先我們(men)來溫習一下Apriori的有關知識(shí)。對於一條關(guān)聯(lián)規則(zé)L->R,我們常用支(zhī)持度(Support)和置信度(Confidence)來(lái)衡量它的重要性。規則的支持度是用來估計在一個購物欄中同時觀察到L和R的概率P(L,R),而規則的置信度是估計購物欄中出現了L時也出會現R的條件概率P(R|L)。關聯規則的目標一般是產生支持度和置信度都較高的規則。

有幾個(gè)類似的度量代替置信度來衡量規則的關聯程度,它們分別是

Lift: P(L,R)/(P(L)P(R))

Lift=1時表示L和(hé)R獨立。這個數越大,越表明(míng)L和R存在在一個購物欄中不是偶然(rán)現(xiàn)象。

Leverage:P(L,R)-P(L)P(R)

它和Lift的含義差不多。Leverage=0時L和R獨立,Leverage越大L和R的關係越(yuè)密切。

Conviction(更不知道譯了):P(L)P(!R)/P(L,!R) (!R表示R沒有發生)

Conviction也是(shì)用來衡量(liàng)L和R的獨立性。從它和lift的關係(對R取反,代入Lift公式(shì)後(hòu)求倒數)可以看出,我們也希望這個值越大越好。

值得注意(yì)的(de)是,用Lift和Leverage作標準時,L和R是對稱的,Confidence和Conviction則(zé)不然。

參數設置(zhì)

現在(zài)我們計劃挖掘出支(zhī)持度在10%到100%之間,並且lift值超過1.5且lift值排在前100位的那些關聯(lián)規則。我們把 “lowerBoundMinSupport”和“upperBoundMinSupport”分別設為0.1和1,“metricType”設為 lift,“minMetric”設為1.5,“numRules”設為100。其他選項保持默認即(jí)可。“OK” 之後在“Explorer”中點擊“Start”開始運行算法,在右邊窗口顯(xiǎn)示數據集摘要和挖掘結果。

下麵是(shì)挖掘出來的lift排前5的規(guī)則。

Best rules found:

1. age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

2. income=43759_max 80 ==> age=52_max save_act=YES current_act=YES 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)

3. income=43759_max current_act=YES 63 ==> age=52_max save_act=YES 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)

4. age=52_max save_act=YES 151 ==> income=43759_max current_act=YES 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)

5. age=52_max save_act=YES 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)

對於挖掘出的每條規則,WEKA列出了它們關聯程度的四項指標(biāo)。

命令行方式

我們(men)也可以利(lì)用命令行來完成挖掘任(rèn)務(wù),在“Simlpe CLI”模塊中(zhōng)輸入如下格式的命令:

java weka.associations.Apriori options -t directory-path"bank-data-final.arff

即可完成Apriori算法。注意,“-t”參數後的文件路徑中不能含有空格。

在前麵我們使用的option為

-N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中(zhōng)使用這些參數得到的(de)結果和前麵利用GUI得到的一樣。

我們還可以加上“- I”參數,得到不同項數的頻繁項集。我(wǒ)用的命令如下:

java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:"weka"bank-data-final.arff

挖掘結果在上方顯示,應是這個文件 的樣子。

軟件截圖

下載地址 電腦版

點擊報錯 軟件無法下載或下(xià)載後(hòu)無法使用,請點擊報錯(cuò),謝謝(xiè)!

用戶評論

熱(rè)門評論

最新評論(lùn)

發表(biǎo)評論 查看所有評論(0)

昵稱:
請(qǐng)不要評論無意義或髒話,我們(men)所有評論會有人工審核.
字數: 0/500 (您的評論需要經過審核才能顯示)
免费人欧美成又黄又爽的视频丨一本色道久久88综合日韩精品丨国产专区日韩精品欧美色丨午夜无遮挡男女啪啪视频丨国产欧美日韩综合精品一区二区丨亚洲精品无码不卡在线播HE丨亚洲精品国产精品国自产观看丨日韩国产高清av不卡