您現在的位置是：首頁 > 足球

使用Scikit Learn的分類器探索Iris資料集

由人工智慧遇見磐創發表于足球
2022-06-27

簡介我們可以使用所有特徵和僅花瓣特徵檢查測試精度：The accuracy of the LDA Classifier on test data is 0

馬基尼小提琴好嗎

暫時，想象一下你不是一個花卉專家（如果你是專家，那對你很好！）。你能區分三種不同的鳶尾屬植物嗎？剛毛鳶尾屬，花色鳶尾屬和維吉尼亞鳶尾屬（setosa， versicolor， virginica）？

我知道我不能…

但是，如果我們有一個包含這些物種例項的資料集，以及它們的萼片和花瓣的測量結果呢？

換言之，我們能從這個資料集中學到什麼來幫助我們區分這三個物種嗎？

我們為什麼選擇這個資料集？

我們想回答什麼問題？

在這個資料集中我們能找到什麼？

我們正在構建哪些分類器？

下一步該怎麼辦？

資料集

在這篇博文中，我將探索UCI機器學習庫中的Iris資料集。它摘自其網站，據說這可能是模式識別文獻中最著名的資料庫。此外，Jason Brownlee，機器學習社群建立者，他稱該資料集為機器學習的“

Hello World

”。

我將把這個資料集推薦給那些對資料科學感興趣並渴望構建第一個ML模型的人。它的一些優良特性見下文：

150個具有4個屬性的例項（相同的單位，全部為數字）

均衡的階級分佈

無缺失資料

如你所見，這些特性有助於將你在資料準備過程中花費的時間減至最少，這樣你就可以專注於構建你的第一個ML模型。

並不是說準備階段不重要。相反，這個過程是如此的重要，以至於對於一些初學者來說，這可能是非常耗時的，而且他們在開始模型開發之前可能會把自己壓得喘不過氣來。

例如，來自Kaggle的流行資料集House Prices：Advanced returnation Techniques有大約80個特徵，其中超過20%包含某種程度的缺失資料。在這種情況下，你可能需要花費一些時間來理解屬性並填充缺失的值。

目標

在研究了這個資料集之後，我們希望能夠回答兩個問題，這在分類問題中非常典型：

預測

-給定新的資料點，模型預測其類（物種）的準確度如何？

推斷

-哪些預測因素可以有效地幫助預測？

分類

分類是一類有監督的機器學習問題，其中目標（響應）變數是離散的。給定包含已知標籤的訓練資料，分類器從輸入變數（X）到輸出變數（Y）近似一個對映函式（f）。

現在是時候寫一些程式碼了！請參閱我的Github頁面以獲取完整的Python程式碼（在Jupyter Notebook中編寫）。

連結：https：//github。com/terryz1/explore-iris

匯入庫並載入資料集

首先，我們需要匯入庫：pandas（載入資料集）、numpy（矩陣操作）、matplotlib和seaborn（視覺化）以及sklearn（構建分類器）。在匯入它們之前，請確保它們已經安裝（請參閱此處的安裝程式包指南）。

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib。pyplot as pltfrom sklearn。model_selection import train_test_splitfrom pandas。plotting import parallel_coordinatesfrom sklearn。tree import DecisionTreeClassifier， plot_treefrom sklearn import metricsfrom sklearn。naive_bayes import GaussianNBfrom sklearn。discriminant_analysis import LinearDiscriminantAnalysis， QuadraticDiscriminantAnalysisfrom sklearn。neighbors import KNeighborsClassifierfrom sklearn。svm import SVCfrom sklearn。linear_model import LogisticRegression

要載入資料集（也可以在我的Github頁面中找到），我們可以使用pandas的read_csv函式（我的程式碼還包括透過url載入的選項）。

data = pd。read_csv（‘data。csv’）

載入資料後，我們可以透過head檢視前幾行：

data。head（5）

注：所有四個測量單位均為釐米。

數值摘要

首先，讓我們透過“describe”來檢視每個屬性的數值摘要：

data。describe（）

我們還可以使用groupby和size檢查類分佈：

data。groupby（‘species’）。size（）

我們可以看到每個類都有相同數量的例項。

訓練集測試集拆分

現在，我們可以將資料集分成訓練集和測試集。通常，我們還應該有一個驗證集，用來評估每個分類器的效能，進行微調，並確定最佳模型。測試集主要用於報告。然而，由於這個資料集的規模很小，我們可以透過使用測試集來滿足驗證集的目的來簡化它。

此外，我還使用了分層保持方法來估計模型精度。我會在以後的部落格中討論減少偏差的方法。

train， test = train_test_split（data， test_size = 0。4， stratify = data［‘species’］， random_state = 42）

注意：我設定了40%的資料作為測試集，以確保有足夠的資料點來測試模型。

探索性資料分析

在我們分割資料集之後，我們可以繼續探索訓練資料。matplotlib和seaborn都有很好的繪圖工具，我們可以用來視覺化。

讓我們首先建立一些單變數圖。為每個特徵建立直方圖：

n_bins = 10fig， axs = plt。subplots（2， 2）axs［0，0］。hist（train［‘sepal_length’］， bins = n_bins）；axs［0，0］。set_title（‘Sepal Length’）；axs［0，1］。hist（train［‘sepal_width’］， bins = n_bins）；axs［0，1］。set_title（‘Sepal Width’）；axs［1，0］。hist（train［‘petal_length’］， bins = n_bins）；axs［1，0］。set_title（‘Petal Length’）；axs［1，1］。hist（train［‘petal_width’］， bins = n_bins）；axs［1，1］。set_title（‘Petal Width’）；# 新增一些間距fig。tight_layout（pad=1。0）；

請注意，對於花瓣長度和花瓣寬度，似乎有一組資料點的值比其他資料點小，這表明此資料中可能存在不同的組。

接下來，讓我們嘗試一些箱線圖：

fig， axs = plt。subplots（2， 2）fn = ［“sepal_length”， “sepal_width”， “petal_length”， “petal_width”］cn = ［‘setosa’， ‘versicolor’， ‘virginica’］sns。boxplot（x = ‘species’， y = ‘sepal_length’， data = train， order = cn， ax = axs［0，0］）；sns。boxplot（x = ‘species’， y = ‘sepal_width’， data = train， order = cn， ax = axs［0，1］）；sns。boxplot（x = ‘species’， y = ‘petal_length’， data = train， order = cn， ax = axs［1，0］）；sns。boxplot（x = ‘species’， y = ‘petal_width’， data = train， order = cn， ax = axs［1，1］）；# 新增一些間距fig。tight_layout（pad=1。0）；

底部的兩個圖表明我們前面看到的那組資料點是setosas。它們的花瓣尺寸比其他兩個物種更小，分佈也更少。與其他兩個物種相比，versicolor的平均值比virginica 低。

小提琴圖是另一種視覺化方式，它結合了直方圖和方框圖的優點：

sns。violinplot（x=“species”， y=“petal_length”， data=train， size=5， order = cn， palette = ‘colorblind’）；

現在我們可以使用seaborn的pairplot函式繪製所有成對屬性的散點圖：

sns。pairplot（train， hue=“species”， height = 2， palette = ‘colorblind’）；

請注意，有些變數似乎高度相關，例如花瓣長度和花瓣寬度。另外，花瓣的測量比萼片的分離更好。

接下來，我們製作一個相關矩陣來定量檢查變數之間的關係：

corrmat = train。corr（）sns。heatmap（corrmat， annot = True， square = True）；

主要的結論是花瓣的大小有高度的正相關，而萼片的測量是不相關的。注意花瓣特徵與萼片長度也有較高的相關性，但與萼片寬度無關。

另一個很酷的視覺化工具是 parallel coordinate plot，它將每一行表示為一條直線。

parallel_coordinates（train， “species”， color = ［‘blue’， ‘red’， ‘green’］）；

正如我們之前所見，花瓣的測量比萼片的能更好地區分物種。

構建分類器

現在我們準備建立一些分類器

為了讓我們的生活更輕鬆，讓我們把類標籤和特徵分開：

X_train = train［［‘sepal_length’，‘sepal_width’，‘petal_length’，‘petal_width’］］y_train = train。speciesX_test = test［［‘sepal_length’，‘sepal_width’，‘petal_length’，‘petal_width’］］y_test = test。species

決策樹

我想到的第一個分類器是一個稱為決策樹。原因是我們可以看到分類規則，而且很容易解釋。

讓我們使用sklearn（文件）構建一個，最大深度為3，我們可以在測試資料上檢查它的準確性：

mod_dt = DecisionTreeClassifier（max_depth = 3， random_state = 1）mod_dt。fit（X_train，y_train）prediction=mod_dt。predict（X_test）print（‘The accuracy of the Decision Tree is’，”{：。3f}”。format（metrics。accuracy_score（prediction，y_test）））——————————————————————————————————The accuracy of the Decision Tree is 0。983。

決策樹正確預測了98。3%的測試資料。該模型的一個優點是，你可以透過每個因子的feature-importances屬性來檢視其特徵重要性：

mod_dt。feature_importances_——————————————————————————————————array（［0。， 0。， 0。42430866， 0。57569134］）

從輸出結果和基於四個特徵的索引，我們知道前兩個特徵（萼片度量）並不重要，只有花瓣特徵被用來構建這棵樹。

決策樹的另一個優點是我們可以透過plot_tree視覺化分類規則：

plt。figure（figsize = （10，8））plot_tree（mod_dt， feature_names = fn， class_names = cn， filled = True）；

此樹中的分類規則（對於每個拆分，左->是，右->否）

除了每個規則（例如，第一個標準是花瓣寬度≤0。7），我們還可以看到每個拆分、指定類別等的基尼指數。請注意，除了底部的兩個“淺紫色”框外，所有終端節點都是純的。對於這兩類情況，表示沒有信心。

為了證明對新資料點進行分類是多麼容易，假設一個新例項的花瓣長度為4。5cm，花瓣寬度為1。5cm，那麼我們可以根據規則預測它是versicolor。

由於只使用花瓣特徵，因此我們可以視覺化決策邊界並以二維形式繪製測試資料：

在60個數據點中，59個被正確分類。另一種顯示預測結果的方法是透過混淆矩陣：

disp = metrics。plot_confusion_matrix（mod_dt， X_test， y_test， display_labels=cn， cmap=plt。cm。Blues， normalize=None）disp。ax_。set_title（‘Decision Tree Confusion matrix， without normalization’）；

透過這個矩陣，我們看到有一種花色，我們預測是virginica。

構建一棵樹的一個缺點是它的不穩定性，這可以透過諸如隨機森林、boosting等整合技術來改善。現在，讓我們繼續下一個模型。

高斯樸素貝葉斯分類器

最流行的分類模型之一是樸素貝葉斯。它包含了“Naive”一詞，因為它有一個關鍵的類條件獨立性假設，這意味著給定的類，每個特徵的值都被假定獨立於任何其他特徵的值（請參閱此處）。

我們知道，這裡顯然不是這樣，花瓣特徵之間的高度相關性證明了這一點。讓我們用這個模型來檢查測試精度，看看這個假設是否可靠：

The accuracy of the Guassian Naive Bayes Classifier on test data is 0。933

如果我們只使用花瓣特徵，結果如何：

The accuracy of the Guassian Naive Bayes Classifier with 2 predictors on test data is 0。950

有趣的是，僅使用兩個特徵會導致更正確的分類點，這表明在使用所有特徵時可能會過度擬合。看起來我們樸素貝葉斯分類器做得不錯。

線性判別分析

如果我們使用多元高斯分佈來計算類條件密度，而不是使用一元高斯分佈的乘積（在樸素貝葉斯中使用），我們將得到一個LDA模型。LDA的關鍵假設是類之間的協方差相等。我們可以使用所有特徵和僅花瓣特徵檢查測試精度：

The accuracy of the LDA Classifier on test data is 0。983The accuracy of the LDA Classifier with two predictors on test data is 0。933

使用所有特徵可以提高我們的LDA模型的測試精度。

為了在二維視覺化決策邊界，我們可以僅使用花瓣的LDA模型，並繪製測試資料：

四個測試點被錯誤分類-三個virginica和一個versicolor。

現在假設我們要用這個模型對新的資料點進行分類，我們只需在圖上畫出點，然後根據它所屬的顏色區域進行預測。

二次判別分析

LDA和QDA的區別在於QDA不假設類間的協方差相等，它被稱為“二次型”，因為決策邊界是一個二次函式。

The accuracy of the QDA Classifier is 0。983The accuracy of the QDA Classifier with two predictors is 0。967

在所有特徵的情況下，它與LDA具有相同的精度，並且僅使用花瓣時，它的效能稍好一些。

類似地，讓我們繪製QDA（只有花瓣的模型）的決策邊界：

KNN分類器

現在，讓我們換個角度，看看一個名為KNN的非引數模型。它是一個十分流行的模型，因為它相對簡單和易於實現。然而，我們需要意識到當特徵的數量變大時我們會受到維度詛咒。

讓我們用K的不同選擇繪製測試精度：

我們可以看到，當K為3或在7到10之間時，精確度最高（約為0。965）。與以前的模型相比，分類新的資料點不那麼直接，因為我們需要在四維空間中觀察它的K個最近的鄰居。

其他模型

我還研究了其他模型，如logistic迴歸、支援向量機分類器等。

注意SVC（帶線性核心）的測試精度達到了100%！

我們現在應該很有信心，因為我們的大多數模型的準確率都超過了95%。

下一步

以下是一些未來研究的想法：

對這些模型進行交叉驗證，並比較它們之間的平均精確度。

找到其他資料來源，包括其他鳶尾屬物種及其萼片/花瓣測量值（如果可能，也包括其他屬性），並檢查新的分類精度。

製作一個互動式的web應用程式，根據使用者輸入的測量值來預測物種。

結尾

我們研究了Iris資料集，然後使用sklearn構建了一些流行的分類器。我們發現花瓣的測量值比萼片的測量值更有助於分類例項。此外，大多數模型的測試精度都在95%以上。

參考文獻

Dua， D。 and Graff， C。（2019）。 UCI Machine Learning Repository ［http：//archive。ics。uci。edu/ml］。 Irvine， CA： University of California， School of Information and Computer Science。

Gareth James， Daniela Witten， Trevor Hastie， Robert Tibshirani。（2013）。 An introduction to statistical learning ： with applications in R。 New York ：Springer。

上一篇：不走尋常路的卡通網球，系列最新作《馬力歐網球ACE》！

下一篇：績效考核為何罰多獎少？

您現在的位置是：首頁 > 足球

使用Scikit Learn的分類器探索Iris資料集

相關文章