您現在的位置是:首頁 > 籃球

一文讀懂資料標註(四):資料探勘

  • 由 三元園區運營 發表于 籃球
  • 2021-09-21
簡介01資料探勘是什麼資料探勘是對既定的“淨資料”進行加工利用的過程,百度百科對其釋義為,從大量的資料中透過演算法搜尋隱藏於其中資訊的過程

挖掘的意思怎麼解釋

之前經過三篇內容的論述,想必大家對資料標註已經有一定的瞭解了,今天我們就進行資料標註系列內容第四篇,資料探勘。快搬來小板凳坐好,一起學習吧。

01

資料探勘是什麼

資料探勘

是對既定的

“淨資料”

進行

加工利用

的過程,百度百科對其釋義為,從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。

資料探勘通常與計算機科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

而資料探勘是有一定規則和相應模型的,這一點我們也可以透過一個類比進行理解。

舉個例子,清洗後的高質量資料就像是一件件精美的裝飾品,而資料探勘模型就像是各種不同規格的包裝,包裝不一致,意味著包裝好成品的展示形式與作用也不一樣。

一文讀懂資料標註(四):資料探勘

02

資料探勘與資料分析的區別

乍一看,資料探勘和資料分析有些像,但從釋義來說,就能看出他們的區別。

資料分析

:從資料庫中透過統計、計算、抽樣等相關的方法,獲取基於資料庫的資料

表象

的知識,也就是指資料分析是從資料庫裡面得到一些表象性的資訊。

資料探勘

:從資料庫中,透過機器學習或者是透過數學演算法等相關的方法獲取

深層次

的知識(比如屬性之間的規律性,或者是預測)的技術。

03

資料探勘的特點

1

資料集大,且不完整

資料探勘所需要的資料集巨大,只有資料集越大,得到的規律才能越貼近於正確的實際的規律,結果也才越準確。

2

不準確性

資料探勘存在不準確性,主要是由噪聲資料造成的。比如在商業中的假資料、工業中的輻射、電磁干擾等。

一文讀懂資料標註(四):資料探勘

3

模糊性

由於資料不準確導致只能在大體上對資料進行一個整體的觀察,或者由於涉及到隱私資訊無法獲知到具體的一些內容,如要做相關分析,就只能在大體上做一些分析,無法精確判斷。

4

隨機性

資料的隨機性有兩個解釋,一個是獲取的資料隨機;我們無法得知使用者填寫的到底是什麼內容。第二個是分析結果隨機。資料交給機器進行判斷和學習,那麼一切的操作都屬於是灰箱操作。

04

資料探勘的方法

1

神經網路方法

神經網路由於本身良好的魯棒性、自組織自適應性、並行處理、分佈儲存和高度容錯等特性非常適合解決資料探勘的問題,因此近年來越來越受到人們的關注。

2

遺傳演算法

遺傳演算法是一種基於生物自然選擇與遺傳機理的隨機搜尋演算法,是一種仿生全域性最佳化方法。遺傳演算法具有的隱含並行性、易於和其它模型結合等性質使得它在資料探勘中被加以應用。

一文讀懂資料標註(四):資料探勘

3

決策樹方法

決策樹是一種常用於預測模型的演算法,它透過將大量資料有目的分類,從中找到一些有價值的,潛在的資訊。它的主要優點是描述簡單,分類速度快,特別適合大規模的資料處理。

4

粗集方法

粗集理論是一種研究不精確、不確定知識的數學工具。粗集方法有幾個優點:不需要給出額外資訊;簡化輸入資訊的表達空間;演算法簡單,易於操作。粗集處理的物件是類似二維關係表的資訊表。

5

覆蓋正例排斥反例方法

它是利用覆蓋所有正例、排斥所有反例的思想來尋找規則。首先在正例集合中任選一個種子,到反例集合中逐個比較。與欄位取值構成的選擇子相容則捨去,相反則保留。按此思想迴圈所有正例種子,將得到正例的規則(選擇子的合取式)。

6

統計分析方法

在資料庫欄位項之間存在兩種關係:函式關係和相關關係,對它們的分析可採用統計學方法,即利用統計學原理對資料庫中的資訊進行分析。可進行常用統計、迴歸分析、相關分析、差異分析等。

7

模糊集方法

即利用模糊集合理論對實際問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。系統的複雜性越高,模糊性越強,一般模糊集合理論是用隸屬度來刻畫模糊事物的亦此亦彼性的。

05

資料探勘的基本步驟

從形式上來說,資料探勘的開發流程是迭代式的。開發人員透過如下幾個階段對資料進行迭代式處理:

1

解讀需求

絕大多數的資料探勘工程都是針對具體領域的,因此資料探勘工作人員不應該沉浸在自己的演算法模型世界裡,而應該多和具體領域的專家交流合作以正確的解讀出專案需求,且這種合作應當貫穿整個專案生命週期。

2

蒐集資料

在大型公司,資料蒐集大都是從其他業務系統資料庫提取。很多時候我們是對資料進行抽樣,在這種情況下必須理解資料的抽樣過程是如何影響取樣分佈,以確保評估模型環節中用於訓練(train)和檢驗(test)模型的資料來自同一個分佈。

一文讀懂資料標註(四):資料探勘

3

預處理資料

預處理資料可主要分為資料準備和資料歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時間序列加權等;而後者主要包含維度歸約、值歸約、以及案例歸約。

4

評估模型

確切來說,這一步就是在不同的模型之間做出選擇,找到最優模型。很多人認為這一步是資料探勘的全部,但顯然這是以偏概全的,甚至絕大多數情況下這一步耗費的時間和精力在整個流程裡是最少的。

5

解釋模型

資料探勘模型在大多數情況下是用來輔助決策的,人們顯然不會根據“黑箱模型”來制定決策。如何針對具體環境對模型做出合理解釋也是一項非常重要的任務。

一文讀懂資料標註(四):資料探勘

資料探勘在各行業中的應用較為廣泛,但風險與機遇依舊共存。

今天的內容先到這裡,如果你還想知道什麼,請在下方留言,我們一起探討。另外,今天的內容也是近幾篇最長的一篇內容,希望你能用心看完。

Top