您現在的位置是:首頁 > 棋牌

電子商務大資料探勘常用演算法

  • 由 數字經濟探索 發表于 棋牌
  • 2023-02-04
簡介但在對電子商務資料進行關聯規則分析時,需要注意兩個關鍵的問題:第一,從大型事務資料集中發現模式,在計算機的應用上可能要付出很高的代價

如何理解商務資料探勘

01

關聯分析

關聯分析是進行資料探勘技術的主要手段,其主要是針對資料資訊中的各個範圍之間的聯絡,尋找多種不同領域之間的依存關係。運用關聯規則想要達到的主要目的就是找出每一個數據信息的內在關係,關聯規則是用在同類事件中不同專案的關聯性。

在資料探勘中,關聯分析是其主要的功能之一,它可以在市場營銷的各個領域進行應用。其中,對消費者的購買行為進行關聯規則方面的分析是關聯分析的主要應用之一,其目的是為了對消費者購買商品時的行為模式進行探詢。透過採用關聯分析方法來對挖掘資料中的關聯性規則,能夠幫助企業採取適當的營銷方式對商品進行宣傳,從而有利於促進新產品的銷售。同時,這也有利於消費者發現新產品,從而進一步促進了新產品的宣傳與銷售。

在電子商務系統中,利用關聯規則分析並挖掘出各資料之間的相互關係。例如,採用關聯規則技術在商品推薦子系統中發現新市場。根據使用者當前的購買習慣向該使用者進行商品推薦。關聯規則推薦演算法分為關聯規則形成和推薦形成二個階段。商品推薦子系統先根據關聯規則對當前客戶沒有瀏覽的商品進行推薦度計算,再根據推薦度的大小,推薦未瀏覽的商品給當前客戶。

電子商務中具有海量的交易資料和大量有趣的業務關係,在典型的購物籃分析中,它可以幫助許多商業決策。例如對超市管理者而言,透過顧客對購物籃中商品的分類,得到不同產品之間的聯絡,併為決策制定典型的應用,以確定哪些產品將被放置在一個購物車或購物籃,顧客就會購買這些商品。同時,這些資訊也可以幫助零售商選擇調節分配和貨架,行李箱出售。例如,將牛奶和麵包放在一起刺激顧客同時購買這些商品。在電子商務中,Web伺服器因為日誌檔案記錄訪問使用者資料,透過這些資料,挖掘使用顧客購買產品的網上某些偏好和品牌忠誠的相關性,價格可以接受的範圍內和包裝要求等內容,從而幫助管理人員計劃,確定投資品,價格和新產品的型別。

但在對電子商務資料進行關聯規則分析時,需要注意兩個關鍵的問題:第一,從大型事務資料集中發現模式,在計算機的應用上可能要付出很高的代價;第二,所發現的模式有可能是虛假的,因為發現的模式可能是偶然發生的。

電子商務大資料探勘常用演算法

(圖1 採用關聯規則技術在商品推薦子系統中發現新市場。根據使用者當前的購買習慣向該使用者進行商品推薦)

02

聚類分析

聚類分析是把一組資料按照相似性和差異性分為幾個類別,其目的是使得屬於同一類別的資料間的相似性儘可能大,不同類別中的資料間的相似性儘可能小。聚類分析的方法是資料探勘領域最為常見的技術之一。常用的聚類分析方法有:分割聚類方法、層次聚類方法、基於密度的聚類方法和高維稀疏聚類演算法等。在透過多次的刪除或新增變數影響的分類方式,可以從中得到我們想要的最佳結果。

電子商務中市場細分經常會用到聚類分析法,這樣就可以根據己知的客戶資訊資料,將消費模式相似的客戶分為一類,從而有針對性的進行調整營銷策略,為客戶提供更加適合更加滿意的個性化服務。例如,根據現在擁有的客戶情況按照客戶的不同消費水平以及不同情況進行模式的分析,從而在進行產品營銷的過程中提供更加高質量、高品質的服務內容;針對不同的客戶可以進行銷售郵件的傳送,透過聚類的分析進行客戶資訊的提取,使得服務更加的周到和細緻。

03

分類分析

分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是透過分類模型或分類函式,將資料庫中的資料項對映到某個給定的類別。分類的主要方法有基於決策樹模型的資料分類、支援向量機演算法、貝葉斯分類演算法、ID3演算法和基於BP神經網路演算法等。

進行分類分析是資料探勘技術主要的應用方向之一,並且使用起來更加的方便。進行產品的分類是將事件進行物件的劃分,同時也可以用這個技術進行資料的觀測和預測。對資料進行分類處理,整理出一個科學、完整的預測模型。例如電子商務企業預測出可能要傳送的郵件,以及客戶的主要情況,然後針對不同的使用者展開不同的商業營銷,進而提供出個性化的服務內容。

在電子商務中經常對挖掘的資料進行分類處理,即將資料性質相近的歸在一類中,性質差別較大的歸入不同的類中。利用已知類別事物的資料性質建立相應的函式式,對未知類別的新事物進行判別將其歸入已知的類中。透過分析已知分類資訊的歷史資料,建立一個預測模型,預測哪些人可能會對哪些商品感興趣,針對這類客戶的特點開展商務活動,提供針對性的服務。分類方法的特點是透過對示例資料庫中的資料進行分析,已經建立了一個分類模型,然後利用分類模型對資料庫中的其它記錄進行分類。

假定現在有一個描述顧客屬性的資料庫,包括他們的姓名、年齡、收入、職業等,企業可以按照他們是否購買某種商品(例如計算機)來進行分類。如果現在有新的顧客新增到資料庫中,並將新計算機的銷售資訊通知顧客,若將促銷材料分發給資料庫中的每個新顧客,如此可能會導致耗費較多的精力和物力。而若我們只給那些可能購買新計算機的顧客分發材料,可以在較大的程度上節省成本。為此,可以構造和使用分類模型。

04

時間序列模式分析

時間序列模式分析是指挖掘相對時間或其他模式出現頻率高的模式,電子商務活動中交易產生資料存放到相應事務資料庫的表中,每一條記錄包括使用者的使用者號、發生的時間和商品等專案資訊。利用事務資料庫來挖掘出涉及事務間關聯的模式,分析使用者幾次購買行為間的聯絡,採取有針對性的營銷措施。

序列模式的資料探勘是交易集的時間順序的主要模式與內容。資料探勘主要針對的是找出資料之間的相互關係和內容。並且分析出逐個專案,從而對未來資料進行科學的觀測。這種序列模式以及關聯性的分析比較相似,目的就是為了找出每一個數據之間的關聯,但是序列模式的主要針對點是對資料間的前面以及後面進行關聯性的分析。它能發現數據庫中形如在某一段時間內,顧客購買商品

A

,接著購買商品

B

,而後購買商品

C

,即序列

A-B-C

出現的頻度較高的資訊。序列模式分析的一個例子是“九個月以前購買奔騰PC的客戶很可能在一個月內訂購新的CPU晶片”。

電子商務大資料探勘常用演算法

05

偏差分析

偏差是資料集中的小比例物件,通常偏差物件也被稱為離群點。偏差分析包括分類中的反常例項、例外模式、觀測結果對期望值的偏離以及隨機的變化等,它是對差異和極端特例的描述,用於揭示事物偏離常規的異常現象。其基本思想是對資料庫中的偏差資料進行檢測與分析,檢測出資料庫彙總的一些異常記錄,它們在某些特徵上與資料庫中的大部分資料有顯著不同。

透過發現異常,可以引起人們對特殊情況的格外關注。導致異常資料的原因主要包括:

(1)資料來源與異類,如欺詐、入侵、疾病爆發、不尋常的實驗結果等。

(2)由資料量固有變化引起的,是自然發生的,反映了資料集資料分佈特徵,如氣候變化、顧客的新的購買模型、基因突變等。

(3)資料測量和收集誤差,主要是由於人為錯誤、測量裝置故障或存在噪音。

異常資料(離群點)揭示了日常活動中的異常規律,具有顯著的商業價值。例如,應用到客戶異常資訊的發現、分析、識別、評價和客戶流失預警等方面。離群點不可輕易丟棄,因為在一些特殊的資料探勘應用中,透過罕見的事件更容易高效地發現問題,離群點分析已經是信用卡欺詐、網路非法入侵等領域很有價值的安全監測手段,例如,一個顧客的賬單上突然出現一筆大額交易,該消費極有可能是信用卡的欺詐性使用。

此外,異常事件中還包括序列異常以及特定規則。異常序列分析是指在一系列行為或事件對應的序列中發現明顯不符合一般規律的特異型知識。特異規則雖然支援度低,但對其應用很有價值。通常,關聯規則挖掘把注意力集中在高支援度和高置信度的規則,對那些特異規則無法做出正確的評價。

06

特異群組分析

特異群組分析是發現數據物件集中明顯不同於大部分資料物件(不具有相似性)的資料物件(稱為特異物件)的過程。一個數據集中大部分資料物件不相似,而每個特異群組中的物件是相似的。這是一種大資料環境下的新型大資料探勘任務。

特異群組挖掘與聚類、偏差分析都屬於根據資料物件的相似性來劃分資料集的資料探勘任務。但是,特異群組挖掘在問題定義、演算法設計和應用效果方面不同於聚類和偏差分析等挖掘任務。

行為資料反映了人類的各種行為方式,這些行為通常是個體物件主動的行為(如股票交易、看病就醫、通勤出行、購物等)。一般情況下,行為物件具有個體性。因此,如果有兩個或兩個以上的物件長時間存在共同的行為,說明這些物件具有群體組織性,有別於通常大部分物件的個體性,這些群體是異常現象。特異群組挖掘就是在眾多行為物件中找到那些少數物件群體,這些行為物件具有一定數量的相同或相似行為模式,表現出相異於大多數物件而形成異常的群組。目前已有相當的應用,其在證券金融、醫療保險、智慧交通、社會網路和生命科學研究等領域具有重要應用價值。

例如,大多數線上交易平臺(如eBay和淘寶)都已建立交易雙方的信用評分系統。對賣家而言,更高的信用等級將帶來更多買家。然而,從低等級到高等級需要經過較長時間積累大量的交易。於是,一些賣家採用“刷信用”方式賺取高等級的信用評分。提供“刷信用”服務的嫌疑者(甚至是專門的“刷信用”公司)通常申請一批賬號與所服務賣家事先商定,在不進行實際交易的方式下給出好的信用評分。同時,這批賬號又可以幫助其他多個賣家“刷信用”。相比所有線上客戶,“刷信用”賬號數量是相對較少的。因此,如果一組賬戶總是給大量相同的賣家好的信用評分,那麼這組賬戶是可疑的,發現這些可疑賬戶將會為交易平臺信譽欺詐檢測提供幫助。

(數字經濟與電子商務知識系列由樊重俊教授團隊編寫,轉發本文請標明出處)

電子商務大資料探勘常用演算法

Top