您現在的位置是：首頁 > 籃球

思邁特軟體大資料建模案例：Smartbi解決垃圾簡訊帶來的困擾

由思邁特Smartbi 發表于籃球
2021-05-12

簡訊分詞文字垃圾所示

簡介資料探勘平臺Smartbi也不甘示弱，為了能儘快解決垃圾簡訊的問題，Smartbi利用Smartbi Mining進行建模，使用隨機森林文字分類演算法建立合理的簡訊識別模型，對垃圾簡訊進行識別，解決運營商和手機使用者的困擾

smart中文怎麼叫

截至2020年12月，我國手機網民規模達9。86億。移動網際網路時代，個人資訊和使用者資料成為重要的商業資源。一些企業和個人為牟取經濟利益，導致垃圾簡訊頻發，讓人們不勝其擾。保護私生活安寧已經成為一項迫切需要解決的社會問題。

垃圾簡訊

垃圾簡訊是指未經使用者同意向用戶傳送的使用者不願意收到的簡訊息，或使用者不能根據自己的意願拒絕接收的簡訊息，主要包含以下屬性：（一）未經使用者同意向用戶傳送的商業類、廣告類等簡訊息；（二）其他違反行業自律性規範的簡訊息。

垃圾簡訊氾濫，已經嚴重影響到人們正常生活、運營商形象乃至社會穩定。如偽基站可以給三公里內10萬手機發信。現使用者可以使用手機管家進行攔截此類簡訊。

使用者迫切的需要一種快速、有效的垃圾簡訊識別方法。透過垃圾簡訊的精準識別，以完善使用者的通訊環境，為有關部門提供有效依據，維護運營商利益。資料探勘平臺Smartbi也不甘示弱，為了能儘快解決垃圾簡訊的問題，Smartbi利用Smartbi Mining進行建模，使用隨機森林文字分類演算法建立合理的簡訊識別模型，對垃圾簡訊進行識別，解決運營商和手機使用者的困擾。

Smartbi mining資料探勘平臺將操作分為四個步驟：

1。資料獲取，獲取所需資料集；

2。資料預處理，對資料進行文字中文分詞、停用詞過濾處理等；

3。模型構建與評價，構建隨機森林模型，並建立評價指標精確率、召回率、F1值對模型分類效果進行評價。

4。分析結果，總結和建議。

1資料獲取

目前，某運營商已經積累了大量的垃圾簡訊資料。經過加工處理資料如圖3-2所示。本案例收集了295755條簡訊文字資料，欄位說明見表3-1。

表3-1 欄位說明

圖3-2 資料集

為了方便識別字段含義，這裡接入一個元資料編輯節點取別名，如圖3-3所示。

圖3-3 元資料編輯

2 資料預處理

2。1、分詞

中文分詞是指將一整段文字切分為具有最小語義的詞條資訊，即以詞作為基本單元，使用計算機自動對中文文字進行詞語的切分，將文字資料轉化為機器可識別的形式。英文單詞之間是由空格作為分界符的，中文則是由字為基本書寫單位，詞語之間沒有明顯的區分符，因此，中文分詞是中文資訊處理的基礎與關鍵。分詞結果的準確性，對後續文字挖掘有著重要影響。如在進行特徵的選擇時，不同的分詞效果將影響詞語在文字中的重要性，從而影響特徵的選擇。

這裡接入一個分詞節點將text列進行分詞，_c2_seg為分詞後的字串型結果，_c2_seg_words為分詞後的WrappedArray型別結果，分詞輸出結果如圖3-4所示。

圖3-4 分詞

2。2、停用詞處理

中文表達中常常包含許多功能性詞語，相比於其它詞彙，功能性詞語並沒有太多的實際含義。最常用的功能性詞語是限定詞，如“的”、“一個”、“這”、“那”等。這些詞語的使用較大的作用僅僅是協助一些文字的名詞描述和概念表達。在資訊檢索中，為節省儲存空間和提高搜尋效率，在處理自然語言資料（或文字）之前或之後會自動過濾掉某些字或詞，這些字或詞即被稱為停用詞。

我們選擇_c2_seg_words列，接入一個停用詞處理節點，自定義停用詞列表，如圖3-5所示，輸出結果如圖3-6所示。

圖3-5 停用詞列表

圖3-6 停用詞處理

2。3、TF-IDF

由於文字資料無法直接用於建模，因此需要將文字表示成計算機能夠直接處理的形式，即文字數字化。TF-IDF演算法即將文字資料進行數值化。TF意思是詞頻，IDF意思是逆文字頻率指數，用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。TF-IDF值越高，說明該詞越重要。

我們接入TF-IDF演算法進行抽取變換，輸出結果如圖3-6所示。