您現在的位置是:首頁 > 棋牌

詳解資料探勘的技術、工具與用例

  • 由 51CTO 發表于 棋牌
  • 2022-03-08
簡介而資料探勘技術使得Groupon能夠實時地分析海量的客戶資料,將營銷活動與客戶的偏好更加緊密地結合起來,並協助公司識別出業務發展的趨勢

如何理解商務資料探勘

近十年來,隨著計算機處理能力和速度的顯著提高,我們逐漸能夠從繁瑣且耗時的手動式資料分析,轉變成為快速便捷的自動化方法。面對被收集到的資料集日趨增長,能夠發現的資訊相關性也日益複雜,目前各大零售商、銀行、製造商、醫療保健公司,都在透過資料探勘技術,在發現價格變化、促銷策略、使用者偏好、消費習慣、以及支付風險等方面,針對業務模型、收入、運營、以及客戶關係產生深遠的影響。不過,隨著各個公司能夠獲取資料能力的增強,它們會碰到如何充分利用好海量的結構化與非結構化資料,促進業務增長等新問題。而這些往往需要資料科學家的協助與實現。

詳解資料探勘的技術、工具與用例

什麼是資料探勘?

從業務角度而言,我們將分析大資料,發現商業智慧,協助公司解決現實問題,減輕風險,以及抓住新機遇的過程,統稱為資料探勘。而在計算機科學中,它是在大量資料中,發現實用的模式、及其相互關係的過程。它通常涉及到將統計學、人工智慧(AI)工具、以及資料庫管理相結合,透過對大型資料集予以分析,查詢潛藏的異常情況,發現數據模式與相關性,將原始資料轉化為實用資訊,進而實現結果預測。

資料探勘過程的基本步驟

收集資料,將其載入到資料倉庫中。

在本地伺服器或雲端,儲存與管理資料。

業務分析師、管理團隊和IT專業人員透過訪問資料,以確定該如何規整資料。

應用軟體根據特定的需求,對資料進行排序。

以圖形或表格等形式,向終端使用者共享或展示資料。

為了及時獲取可靠的分析結果,我們通常需要透過如下六個步驟,對資料進行結構化:

(1) 業務理解

全面瞭解當前的業務狀況、專案的主要目標、以及成功的標準等方面。

(2) 資料理解

確定解決問題所需的資料,並從所有可用來源收集資料。

(3) 資料準備

為滿足業務需求,準備適當的資料格式,防範資料出現丟失或重複等質量問題。

(4) 建模

使用演算法,識別出資料中的潛在模式。

(5) 評估

評估給定模型所產生的效果與業務目標之間的差距。為了獲得最佳結果,我們通常需要一個迭代的過程,來找到最佳演算法。

(6) 部署

將輸出的結果提供給決策者。

資料探勘的技術

目前,企業可以使用如下多種資料探勘技術,來從原始資料中獲取有價值的洞見:

(1) 模式跟蹤

模式跟蹤是資料探勘的一項基本技術。它旨在透過識別和監視資料中的趨勢或模式,以對業務成果形成智慧推斷。例如,企業可以用它來識別銷售資料的發展趨勢。如果發現某種產品在某些特定人群中的銷售情況,要好於其他產品,那麼該企業便可以據此來建立類似的產品或服務,甚至只是簡單地為此類人群增加原始產品的庫存。

(2) 資料清理和準備

作為資料探勘過程中的一個重要環節,我們必須對原始資料進行清理和格式化,以用於各種後續的分析。具體而言,資料的清理和準備工作包含了:資料建模,轉換,遷移,整合和聚合等各種元素。這是理解資料基本特徵和屬性,進而確定其最佳用途的必要步驟。

(3) 分類

基於分類的資料探勘技術,主要涉及到分析各種型別資料之間的關聯屬性。一旦確定了資料型別的關鍵特徵,企業便可以對它們進行分類。企業可以據此判定是該保護,還是該刪除某些個人身份資訊。

(4) 異常值(Outlier)檢測

異常值檢測可被用於識別資料集中的異常情況。企業在發現數據中異常值後,可以透過防範此類事件的發生,以順利實現業務目標。例如,信用卡系統在某個特定時段出現使用和交易的高峰,那麼企業便可以透過分析瞭解到,可能是由於“大促”所致,併為將來的此類活動做好資源上的事先部署與準備。

(5) 關聯

關聯是一種與統計學相關的資料探勘技術。它旨在建立某些資料與其他資料、或資料驅動型事件的聯絡。它與機器學習中的“共現(co-occurrence)”概念相似,即:某個基於資料的事件的發生機率,是由另一個事件的存在性所標識的。例如,使用者購買漢堡這一行為,往往會伴隨著購買薯片的可能性。兩者之間有著較強的關聯性,卻又不是絕對的伴生關係。

(6) 聚類

聚類是一種依靠視覺化方法,來理解資料的分析技術。聚類機制使用圖形或顏色,來顯示資料在不同類別指標下的分佈情況。透過圖形式的聚類分析,使用者可以直觀地獲悉資料隨業務目標發展的趨勢。

(7) 迴歸

作為一種簡單的白盒技術,迴歸技術可被用於識別出,資料集中變數之間的因果關係、或相關性質。它在資料建模和預測等方面非常實用。

(8) 順序模式

此類資料探勘技術關注於發現和挖掘一系列順序發生的事件,因此常被用於事務性的資料環境中。例如,它可以預測某個顧客在最初購買了某種樣式的鞋後,最有可能去購買哪些相配的服裝。順序模式可以幫助企業向客戶推薦並銷售其他增值項產品。

(9) 預測

預測分析是指在當前或歷史的資料中,對發現到的模式進行擴充套件,以便企業根據現有資料,洞察到即將發生的趨勢。我們既可以使用簡單的演算法,又可以運用高階的機器學習和人工智慧來實現預測分析。

(10) 決策樹

作為一種特定型別的預測模型,決策樹可以讓企業有效地提取所需的資料。從技術上說,決策樹屬於一種極其簡單的“白盒”類機器學習技術。而從效果上說,決策樹能夠使使用者清楚地瞭解到,輸入資料是如何影響結果的。當有多個決策樹模型被組合在一起時,它們將建立所謂隨機森林的預測分析模型。由於輸入並不總能被輕易地猜測其輸出結果,因此複雜的隨機森林模型常被視為“黑盒”類機器學習技術。當然,在大多數情況下,相比單純地使用決策樹,整合建模的基本形式要更為準確一些。

(11) 神經網路

作為一種特定型別的機器學習模型,神經網路通常能夠與AI、以及深度學習協同使用。由於該網路具有類似於人腦中神經元的不同功能層,因此它被譽為目前最精確的機器學習模型之一。

(12) 視覺化

資料視覺化可以在資料探勘的過程中,為使用者提供可檢視到的資料檢視。目前,資料視覺化可用於實時資料流的傳輸場景中,以不同的顏色、動態地展示資料中的不同趨勢和模式。企業不僅能夠使用統計模型中的數值結果,還可以用基於不同指標的儀表板,來視覺化地突顯資料中的模式。

(13) 統計技術

作為資料探勘過程的核心,統計技術基於統計的概念,利用不同的分析模型,產生適用於特定業務目標的數值。例如,神經網路可以使用基於不同權重和度量的複雜統計資訊,來確定被輸入到影象識別系統中的圖片上,到底是狗、還是貓。

(14) 長時記憶處理(Long-term Memory Processing)

長時記憶處理是指能夠長時間分析資料的能力。那些儲存在資料倉庫中的歷史資料可被用於此目的。企業需要透過長時分析,來識別出原本難以檢測到的模式。例如,透過分析過去幾年的人員流失情況,企業可以找到可能導致賬務惡化的蛛絲馬跡。

(15) 資料倉庫

從傳統上說,資料倉庫是將結構化的資料,儲存在關係型資料庫管理系統中,以便對其進行商業智慧化分析、報告,並提供基本的儀表板顯示。目前,業界有基於雲端的資料倉庫、以及半結構化和非結構化的資料倉庫(如Hadoop)。過去,資料倉庫主要處理的是歷史資料。如今,它也能夠利用各種現代化技術與方法,實時地提供對於資料的深入分析。

(16) 機器學習與人工智慧

諸如深度學習之類的高階機器學習形式,在處理大規模的資料時,可以提供較高準確性的預測。因此,它們可以被用在實施AI過程中的資料處理,其中包括:計算機視覺、語音識別、以及使用自然語言處理的複雜文字分析等。此類資料探勘技術有助於識別半結構化和非結構化的資料價值。

資料探勘的重要性

篩選並濾除資料中各種混雜與重複性“噪聲”。

識別相關資料,並用其評估可能出現的結果。

加快企業做出明智決策的過程。

資料探勘的優勢

可協助企業獲取基於知識(knowledge-based)的資訊。

可以被部署並實施在新的或既有的平臺上。

可協助企業在生產和運營中按需進行調整。

促進趨勢和行為的自動化預測,以及隱藏模式的自動發現。

相比其他統計資料型別的應用,更加經濟高效。

有助於改進決策的過程。

作為一個快速的過程,可以讓使用者輕鬆地在更少的時間內分析大量資料。

十種資料探勘工具

由於資料探勘過程是在資料被獲取後立即執行的,因此找到那些能夠針對不同資料結構進行分類、分析與挖掘的工具,是至關重要的。下面,讓我們來討論十種業界常用的挖掘工具。

1。 Oracle Data Mining

Oracle Data Mining(也稱為ODM)是Oracle高階分析資料庫(Advanced Analytics Database)的一個模組。該資料探勘工具既能夠方便資料分析師生成詳細的資料見解,並做出預測;又可以協助識別到交叉銷售(Cross-sells)的機會,開發出使用者畫像(profiles),並最終預測使用者的行為。

(2) Rapid Miner

由Java語言編寫的Rapid Miner,是目前最好的預測分析系統之一。它能夠為深度學習、文字挖掘、機器學習和預測分析,提供一套整合化的環境。其系列產品可以被用來構建全新的資料探勘過程,以及執行預測性的設定分析。

(3) Orange Data Mining

作為可用於機器學習和資料探勘的完美軟體套件,Orange Data Mining透過基於元件的方式,來協助實現資料的視覺化。它的元件常被稱為“widgets”,其中包括各種預處理、資料視覺化、演算法評估、以及預測建模等部件。它們可以協助實現:顯示資料表,選擇不同的功能,讀取資料,訓練預測變數,比較學習演算法,以及視覺化資料元素等服務。

(4) Weka

由Java語言編寫的Weka,透過提供GUI,以方便使用者輕鬆地訪問其所有功能。開發者可以在其圖形化的介面中執行諸如:預處理、分類、迴歸、聚類、以及視覺化等各種資料探勘任務。而作為一款開源的機器學習軟體,Weka為各種任務內建並提供了大量可用於資料探勘的機器學習演算法。因此,您無需編寫任何程式碼,即可快速地驗證自己的資料猜測,並部署出相應的模型。

(5) KNIME

基於模組化資料管道的KNIME,是由KNIME AG開發的最佳資料分析與報告的整合化平臺。它不但免費開源,而且帶有各種機器學習與資料探勘的相關元件。其直觀的介面,可方便使用者建立從建模到生產環境的端到端式資料科學工作流。作為一個通用的可擴充套件平臺,KNIME帶有強大的擴充套件和整合功能,能夠透過各種高階演算法,來處理複雜的資料型別。由於KNIME的不同預構建元件,可以在無需輸入任何程式碼的情況下,實現快速建模。因此,資料科學家可以用它來建立諸如:金融行業常用的信用評分系統等,以實現業務智慧與分析的應用與服務。

(6) Sisense

作為一款非常實用的業務智慧(BI)軟體,Sisense能夠根據不同企業的報告目的,開展資料處理與挖掘,並能夠對大型或分散的資料集,採用儀表板的形式,予以分析和視覺化。它可以將各種來源的資料透過組合,構建出公共儲存庫,進而生成完善且豐富的資料報告,以供各個部門享用。Sisense透過提供具有拖放功能的小部件,以方便非技術型別的使用者設計出餅圖、折線圖、以及條狀圖。使用者只需單擊,便可檢視到詳細資訊和資料全貌。

(7) Dundas

作為一款出色的儀表板、報告和資料分析類工具,Dundas可以透過快速的整合方式,提供美觀的表格、圖表和圖形,不受限制的資料轉換模式,以及可靠的洞見。Dundas BI能夠以特定的方式,將資料放入已定義明確的結構中,以簡化使用者的後續處理。同時,它透過各種關係型方法,方便使用者構建多維的分析,並關注那些業務關鍵性(business-critical)的事項。此外,由它生成的報告,可以在降低成本的同時,消除對於其他附加軟體的依賴。

(8) Intetsoft

作為一種分析儀表板和報告類工具,Intetsoft可以提供針對資料報告與檢視的迭代式開發,並生成畫素級的完美報告。它能夠快速、靈活地轉換各種資料來源。

(9) Qlik

作為一種資料探勘和視覺化工具,Qlik既能夠提供儀表板,又能夠支援多種資料來源和檔案型別。此外,它的豐富功能還包括:透過拖放介面可實現靈活的互動式資料視覺化,即時響應各種互動和更改,支援多種資料來源與檔案型別,可輕鬆、安全地保護各種裝置上的資料和內容,允許以集中式共享應用與分析的故事線。

(10) MonkeyLearn

作為一個專門研究文字挖掘的機器學習平臺,MonkeyLearn透過友好的使用者介面,實現了與其他工具的輕鬆整合,並透過對資料的實時挖掘,基於預訓練的文字挖掘模型,開展目標情感分析,或透過構建定製化的解決方案,以滿足更為具體的業務需求。從檢測主題、情感和意圖,到提取關鍵字和命名實體,MonkeyLearn能夠支援各種資料探勘任務。此外,MonkeyLearn的文字挖掘功能還可以被用於,在客戶支援的場景中,自動進行任務單的標記與路由,自動檢測社交媒體中的負面反饋,以及提供細粒度的洞見,進而做出更好的決策。

資料探勘的典型用例

下面,我們透過各個行業中的典型用例,來討論資料探勘是如何改變業務策略設計,以及預測業務走向的。

(1) 市場

資料探勘可用於檢索與日俱增的資料庫,並改善當前的市場細分。透過分析諸如客戶年齡、性別、口味等引數之間的關係,我們可以預測其行為,以推出個性化的使用者忠誠度計劃。而在市場營銷活動中,資料探勘還可以預測哪些使用者可能會取消已訂閱的服務,獲悉他們的搜尋偏好,進而為實現更高的轉化率,而定製郵件內容與列表。

(2) 銀行業

為了更好地獲悉市場上存在的風險,銀行業可以將資料探勘應用到信用等級、以及智慧反欺詐系統中,以分析卡密交易、購買模式、以及客戶財務資料等方面。透過對銀行APP的資料探勘,它們還可以更深入地瞭解使用者的線上習慣和偏好資訊,研究銷售渠道的績效,以及合規管理的義務,進而提高其營銷活動的回報。

(3) 教育

教育工作者能夠在訪問學生資料的基礎上,透過資料探勘,來預測他們的知識掌握水平,並針對某些成績較差的學生,提供額外的補習與關注。

(4) 電子商務

諸如亞馬遜之類的知名電商平臺,透過使用資料探勘技術,不但可以實現推薦銷售(Up-sells)和交叉銷售,還能夠吸引更多的顧客訪問其平臺。

(5) 零售

超市既可以使用聯合採購的模式(joint purchasing pattern),來識別各個產品之間的關聯,進而決定如何將它們放置在過道和貨架上;又可以透過資料探勘,在結賬佇列中檢測出,哪些商品最受客戶的喜愛,以便提高進貨量。

(6) 服務供應商

手機和公用事業等服務提供商可以使用資料探勘技術,來分析賬單的詳細資訊,與客戶服務的互動,並根據投訴的歷史記錄,為每個客戶分配一個機率分值,以便提供定製化的激勵計劃,或者判斷其流失的可能性。

(7) 醫藥業

透過資料探勘,醫院和醫生可以掌握患者的全面資訊(包括病歷、體檢報告和治療模式等),並據此制定出更加準確且有效的診療方案。透過識別風險,預測人群中的疾病傳播、以及預測住院時間,他們還可以更具成本效益地管理公共衛生資源。而醫療機構則能夠透過資料探勘的優勢,及時發現各種欺詐和違規行為,加強與患者之間的聯絡,進而更好地滿足他們的需求。

(8) 保險

保險公司可以透過資料探勘,來根據盈利目的對其產品進行綜合定價,進而推廣給新、老客戶。

(9) 製造業

藉助資料探勘,製造商可以預測其生產資源的損耗速度,並能透過預防性的維護,最大程度地減少停機時間。

(10) 犯罪調查

透過資料探勘與分析,治安機構可以預測犯罪多發的地點與時段,提前部署警力。

(11) 電視和廣播

憑藉著針對網路應用和實時資料的挖掘,線上電視(如IPTV)和廣播可以實時收集和分析來自不同頻道與節目的觀看與收聽資訊,實時瞭解觀眾與聽眾的興趣愛好,在更好地瞭解其習慣與行為的基礎上,更準確地定位潛在客戶,並實現個性化的推送。

不同行業使用資料探勘的成功案例:

(1) 拜耳幫助農民實現可持續的糧食生產

在農業耕種過程中,那些破壞農作物的雜草一直是困擾農民的難題。雖然農民們可以使用窄譜除草劑,在儘可能減少不良副作用的前提下,有效地殺死田間的雜草。但是,他們首先需要準確地識別出田間雜草的型別。拜耳數字農業使用Talend實時大資料,開發出了WEEDSCOUT應用。在農民們完成了免費下載與安裝後,該APP使用機器學習和人工智慧的方式,將拜耳資料庫中的雜草圖片,與農民拍攝到的雜草照片進行匹配,以便為他們的選種,作物保護產品,以及收割時機等環節,給出更加準確地預測與建議。

(2) 法航荷航滿足客戶旅行的偏好要求

該航空公司使用資料探勘技術,透過將旅行搜尋、預訂、以及航班運營中的資料,與網際網路、社交媒體、呼叫中心、以及候機廳的互動相整合,進而建立了360度的客戶檢視。它們憑藉著這種深刻的客戶洞察力,建立了個性化的旅行體驗。

(3) Groupon協調營銷活動

每天,Groupon都需要實時處理超過TB量級的原始資料,並將此類資訊儲存在各種資料庫系統之中。而資料探勘技術使得Groupon能夠實時地分析海量的客戶資料,將營銷活動與客戶的偏好更加緊密地結合起來,並協助公司識別出業務發展的趨勢。

(4) 達美樂打造完美的購買體驗

作為世界上最大的比薩公司,達美樂透過各種渠道(包括:簡訊、社交媒體、以及Amazon Echo)收集著85,000個結構化和非結構化的資料來源,其中包括全球銷售點系統和26個供應鏈中心。這種洞察能力在提高其業務績效的同時,在各個銷售點之間實現一對一的客戶購買體驗。

總的說來,您可以根據自己的實際需求,使用資料探勘技術,來解決諸如:增加營收,瞭解客戶群的特徵和偏好,獲取新的客戶,改善交叉銷售和推薦銷售,留存客戶並提高忠誠度,透過營銷活動來增加投資回報率,檢測與發現欺詐行為,識別信貸風險,監控運營績效等業務問題與需求。

Top