weka下載-weka軟件(數（shù）據挖掘)下載v3.8.0 官方最新版-附使用教程-綠色資源（yuán）網

軟件介紹

weka是一款功能強大的數（shù）據挖掘軟件，這款軟件具有、分類、回歸（guī）、聚類、關聯分析、數據預處理、評估等特色功能，是數據挖（wā）掘（jué）分析的必備工具，需要的朋友歡迎來綠色（sè）資源網免費下載使用。

weka官方介紹

Weka的全名是懷卡托智（zhì）能分析環境（Waikato Environment for Knowledge Analysis），是一（yī）款免費的，非商業化（huà）（與之（zhī）對應的是SPSS公司商（shāng）業數據挖掘產品--Clementine ）的，基（jī）於JAVA環境下開源的機器學習（machine learning）以及數據挖掘（data mining）軟件。它和它的源代（dài）碼可在其（qí）官方網站（zhàn）下載（zǎi）。有趣的是，該軟件的縮寫（xiě）WEKA也是New Zealand獨有的（de）一種鳥名，而Weka的主要開發者（zhě）同時恰好來自New Zealand的the University of Waikato。

weka下（xià）載

weka軟件功能（néng）介紹

原理與實現

聚類分析中的“類”（cluster）和前麵分類的“類”（class）是不（bú）同的，對cluster更加準確的（de）翻譯應該是“簇”。聚（jù）類的任務（wù）是把所有的實例分配到若幹（gàn）的簇，使得同一個簇的實例聚集（jí）在一個簇中心的周（zhōu）圍（wéi），它（tā）們之間距離的比較近；而不同簇實例之間的距離比較遠。對於由數（shù）值型屬性刻畫的實例來說，這個距離通常指歐氏距離。

模型應用

現在我們要用生成的模型對那些待預測的數（shù）據集進行預測了。注意待預測數據集和訓練用數據集各個屬性的設置必須是一致的。即使你沒有待預測數據集的Class屬性的值，你也要添加這（zhè）個屬性，可以（yǐ）將該屬性在各（gè）實例上的值均設成缺失值。

在“Test Opion”中選擇“Supplied test set”，並且“Set”成你要應用模型的數據集，這裏是“bank-new.arff”文件。

現在，右鍵點擊“Result list”中剛產生（shēng）的那一項，選（xuǎn）擇（zé）“Re-evalsuate model on current test set”。右邊顯示結（jié）果的（de）區域中會增加一些內容，告訴你該模型應用在這（zhè）個數據集上表現將如何（hé）。如（rú）果你的Class屬性都是些缺失值（zhí），那（nà）這些（xiē）內容是無意（yì）義的，我們關注的是模型在新（xīn）數據集上的預測值。

現在點擊右鍵菜單中的“Visualize classifier errors”，將彈出一（yī）個新窗（chuāng）口（kǒu）顯示一些有關預測誤差的散點（diǎn）圖。點擊這個新窗口中的“Save”按（àn）鈕，保存一個Arff文件。打開（kāi）這個文件可以看到（dào）在倒數第二個位置多了一個屬性（predictedpep），這個屬性上的值就是模型對每個實例的預測值。

建模結果

OK，選上“Cross-validation”並在“Folds”框填（tián）上“10”。點“Start”按鈕開始讓算法生成決策樹模型。很快（kuài），用文本表示（shì）的一棵決（jué）策樹，以及（jí）對這個決策（cè）樹的誤差分析等等（děng）結果出現在（zài）右邊的“Classifier output”中。同時左下的“Results list”出現了一（yī）個項目（mù）顯示剛才的時間和算法名稱。如（rú）果換一個模型或者換個（gè）參數，重新“Start”一次，則“Results list”又會多出一項。

weka關聯規則（zé）又稱購物欄分析（xī）

目前，WEKA的關聯（lián）規則分析功能僅能用來（lái）作示範，不適合用來（lái）挖掘大型數據集。

我們打算對（duì）前麵的“bank-data”數據作關（guān）聯規（guī）則的（de）分析。用“Explorer”打開“bank-data-final.arff”後，切換到“Associate”選項卡。默認關聯規則分析是用Apriori算法，我們就用這個算法，但是點“Choose”右邊的文本框修改默認的參數，彈出的窗口中點“More”可以看到各參數的說明。

背景知識

首先我們（men）來溫習一下Apriori的有關知識（shí）。對於一條關（guān）聯（lián）規則（zé）L->R，我們常用支（zhī）持度（Support）和置信度（Confidence）來（lái）衡量它的重要性。規則的支持度是用來估計在一個購物欄中同時觀察到L和R的概率P(L,R)，而規則的置信度是估計購物欄中出現了L時也出會現R的條件概率P(R|L)。關聯規則的目標一般是產生支持度和置信度都較高的規則。

有幾個（gè）類似的度量代替置信度來衡量規則的關聯程度，它們分別是

Lift: P(L,R)/(P(L)P(R))

Lift=1時表示L和（hé）R獨立。這個數越大，越表明（míng）L和R存在在一個購物欄中不是偶然（rán）現（xiàn）象。

Leverage:P(L,R)-P(L)P(R)

它和Lift的含義差不多。Leverage=0時L和R獨立，Leverage越大L和R的關係越（yuè）密切。

Conviction（更不知道譯了）：P(L)P(!R)/P(L,!R) （!R表示R沒有發生）

Conviction也是（shì）用來衡量（liàng）L和R的獨立性。從它和lift的關係（對R取反，代入Lift公式（shì）後（hòu）求倒數）可以看出，我們也希望這個值越大越好。

值得注意（yì）的（de）是，用Lift和Leverage作標準時，L和R是對稱的，Confidence和Conviction則（zé）不然。

參數設置（zhì）

現在（zài）我們計劃挖掘出支（zhī）持度在10%到100%之間，並且lift值超過1.5且lift值排在前100位的那些關聯（lián）規則。我們把 “lowerBoundMinSupport”和“upperBoundMinSupport”分別設為0.1和1，“metricType”設為 lift，“minMetric”設為1.5，“numRules”設為100。其他選項保持默認即（jí）可。“OK” 之後在“Explorer”中點擊“Start”開始運行算法，在右邊窗口顯（xiǎn）示數據集摘要和挖掘結果。

下麵是（shì）挖掘出來的lift排前5的規（guī）則。

Best rules found:

1. age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)

2. income=43759_max 80 ==> age=52_max save_act=YES current_act=YES 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)

3. income=43759_max current_act=YES 63 ==> age=52_max save_act=YES 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)

4. age=52_max save_act=YES 151 ==> income=43759_max current_act=YES 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)

5. age=52_max save_act=YES 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)

對於挖掘出的每條規則，WEKA列出了它們關聯程度的四項指標（biāo）。

命令行方式

我們（men）也可以利（lì）用命令行來完成挖掘任（rèn）務（wù），在“Simlpe CLI”模塊中（zhōng）輸入如下格式的命令：

java weka.associations.Apriori options -t directory-path"bank-data-final.arff

即可完成Apriori算法。注意，“-t”參數後的文件路徑中不能含有空格。