您現在的位置是:首頁 > 武術

【金猿人物展】龍盈智達資料科學家王彥博:量子科技為AI大資料創新發展注入新動能

  • 由 資料猿 發表于 武術
  • 2023-01-07
簡介圍繞資料安全和隱私保護這一主題,一個值得關注的問題是將“可用不可見”拆解為“可用性”“可見性”“可得性”,並聚焦“可見性”和“可得性”的各種組合情境,將隱私計算及相關一系列數字技術(包括敏感資訊分類分級、自然語言處理、多方安全計算、聯邦學習

大資料是一種技術嗎

【金猿人物展】龍盈智達資料科學家王彥博:量子科技為AI大資料創新發展注入新動能

回顧2022年大資料行業發展,令人感觸最深的是數字經濟時代對“資料安全”和“資料智慧”這一“盾”一“矛”都提出了更高的要求,促使隱私計算、小樣本學習等新興數字技術加速發展。

資料安全與隱私保護上升至國家立法高度,發展隱私計算恰逢其時

當前,“數字中國”戰略正在深入推進,數字經濟已成為驅動中國經濟發展的重要引擎。國家“十四五”規劃明確,加快建設數字經濟、數字社會、數字政府,以數字化轉型整體驅動生產方式、生活方式和治理方式變革,打造我國數字經濟新優勢。隨著資料生產要素的重要性與價值的激增,在全球範圍以資料為攻擊和竊取物件的各種資料安全事件和個人資訊侵犯事件多有發生,直接危害到國家安全、社會穩定、經濟發展以及個人權益。

資料安全是數字經濟發展的基石,資料安全保障能力是國家競爭力的直接體現,也是促進數字經濟健康發展、提升治理能力的重要前提。我國的《資料安全法》《個人資訊保護法》分別於2021年9月1日和11月1日正式施行,而2022年則是兩部法律施行的首個年度,也是各級立法、執法部門,各行業監管、標準制定部門釋出或修訂配套法律法規、開展專項檢查行動、制定各種標準與指導意見較為密集的一年,如:《關鍵資訊基礎設施安全保護條例》《網路安全審查辦法》《網路資料安全管理條例(徵求意見稿)》《資料出境安全評估辦法》《個人資訊出境標準合同規定(徵求意見稿)》等。

在這一年中,各行業企業在資料安全與個人資訊保護的合規投入重點,已經開始逐步從制度規範體系建設向數字化、自動化技術工具的研發建設轉換,新興數字技術大量應用於資料與個人資訊保護過程中。這其中,隱私計算是一項“明星技術”,能夠對資料實現“可用不可見”的操作處理。圍繞資料安全和隱私保護這一主題,一個值得關注的問題是將“可用不可見”拆解為“可用性”“可見性”“可得性”,並聚焦“可見性”和“可得性”的各種組合情境,將隱私計算及相關一系列數字技術(包括敏感資訊分類分級、自然語言處理、多方安全計算、聯邦學習、可信執行環境、資料虛擬化等技術)進行細化梳理。

面向不同情境,相應的數字技術梳理如下:

1、資料可見&資料可得:

該情境下需要運用敏感資訊分類分級相關技術。對資料提供必要安全保護的前提與基礎是在資料識別與分類分級基礎上,對資料打上安全屬性標籤,針對資料處理場景、訪問者身份、傳輸渠道等,部署合理、恰當的加密、脫敏、防洩露等保護手段。針對資料分類分級這一難點問題,一方面國家法規及行業標準中制定了分類分級策略和標準等指引,另一方面企業、組織在落地實施中結合技術手段和支撐工具進行資料分類分級管理,從而切實落地資料分類分級的管理和保護義務。

這裡值得進一步關注的技術包括:面向結構性資料開展分類分級和標籤管理往往是在企業資料資產管理平臺上開展的;為解決資料標註時“有多少資料就要有多少人工”的問題,機器學習中的半監督學習、自監督學習等技術能夠發揮較好效用;除結構性資料外,非結構性、半結構性資料也應運用自然語言處理、知識圖譜等相關技術,開展敏感資訊分類分級以及自動化標註和基於有監督學習的智慧識別工作。此外,有研究表明量子計算對機器學習、自然語言處理等智慧技術有效能促進的作用。

2、資料不可見&資料可得:

該情境下需要使用資料去標識化、多方安全計算等相關技術。資料去標識化是個人資訊保護中最常用的技術之一,指個人資訊經過處理,使其在不借助額外資訊的情況下無法識別特定自然人的過程。《個人資訊保護法》第五十一條就提出個人資訊處理者應採取加密、去標識化等安全技術措施保護個人資訊。常用的資料去標識化技術包括統計技術、抑制技術、假名化技術、泛化技術、差分隱私演算法、密文學習技術等。資料去標識化技術是一定條件下的匿名化技術,使個人資料在不被識別和洩露的前提下,可以用於資料傳輸、資料分析、資料探勘等任務,為海量個人資料的巨大價值發揮提供了合規的途徑。

多方安全計算是近年來國內外廣泛關注的一類隱私計算技術,主要運用密碼學的一些重要技術成果,可在不洩漏原始明文資料的前提下,實現資料應用價值,解決資料流通共享中的安全保密問題。多方安全計算涵蓋同態加密、秘密共享、不經意傳輸、混淆電路、零知識證明等多種技術。其中,同態加密技術能夠對原始明文資料進行加密處理後,再對密文資料開展四則運算,而後將密文資料下得到的計算結果進行解密,從而獲得與明文資料直接開展四則運算相一致的計算結果;而秘密共享技術也可以基於數學邏輯對明文資料進行混淆處理,而後開展多方資料交換,從而實現多方資料彙總計算等應用效果。多方安全計算支援在無可信第三方的條件下,保障各參與方資料輸入的隱私性和計算結果的準確性。

這裡值得進一步關注的是隨著近年來量子計算領域快速發展,以RSA為代表的非對稱加密演算法面臨被破解的風險,而RSA同時也是一種同態加密演算法,為此後量子密碼學特別是建立在格密碼體制基礎上的抗量子密碼方案,有望使同態加密技術在量子科技時代仍具有重要應用價值;另外,平行於後量子密碼學,量子保密通訊技術也十分值得關注;此外,有研究表明量子秘密共享方案能夠為量子態秘密的安全提供有效的路徑。

3、資料不可見&資料不可得:

該情境下的代表技術是聯邦學習。與同態加密和秘密共享主要用以開展多方資料彙總計算的任務目標不同,聯邦學習旨在協同多方共建機器學習模型,實現智慧預測識別應用。該項技術是一種多方協同訓練機器學習模型的新正規化,最初的聯邦學習框架是在機器學習本身技術層面思考資訊流的傳遞,保護原始資料不出庫。隨著聯邦學習的技術發展,對聯邦學習提出了增強安全的要求,不僅要求保護原始資料,同時要求對中間互動的引數也進一步保護,以此提高系統安全性。基於聯邦學習開展智慧建模時,各參與方基於自己的本地資料訓練本地模型,再透過引數交換和聚合操作,得到全域性模型;在該過程中,使用者資料始終儲存在本地,不對外發送,極大程度解決了一些組織機構的資料安全顧慮,實現了資料“可用不可見不可得”,在保障隱私、安全和監管的要求下,讓AI系統更加高效、準確地使用資料,並打破“資料壁壘”、連線“資料孤島”。

這裡值得進一步關注的是聯邦學習實際上解決了一方資料存在資料樣本、資料特徵或資料標註資訊受到制約的條件約束下仍實現機器學習模型的可用性,因此其他有助於解決諸如小樣本學習問題的新興技術思想也都值得關注;此外,基於量子計算的聯邦學習技術也是非常值得關注的新興技術方向。

4、資料適度可見&資料不可得:

該情境下較為適用的技術方法有可信執行環境、資料虛擬化等。透過硬體增強型安全技術的支援,在特定的硬體環境中建立一個可信執行環境,有效地防止外界觸達和攻擊敏感的資料與應用,這也是建立起安全可信以及多源資料協同的可行手段之一。可信執行環境技術考慮在不同資料來源建立可信區域來用於資料訪問,透過應用程式隔離技術,保護使用中的資料,有助於進一步強化資料安全,保證其機密性和完整性,並透過資料適度可見性進一步拓展資料可用性。

面向資料“可用、適度可見、不可得”,資料虛擬化技術也是非常有效的解決方案之一,資料虛擬化可以在不考慮其物理儲存或異構結構的情況下訪問資料,透過資料檢視及許可權控制“按需”提供資料、參與計算,同時,源資料依然留在原處,藉助資料管控策略及使用者和許可權管理,資料虛擬化實現了統一且安全的資料治理,保障資料“適度可見”,在資料可用的同時“不可得”。

這裡值得進一步關注的是當前量子計算給傳統密碼學帶來新的挑戰,在可信執行環境、資料虛擬化等技術底層的資料傳輸方面,應考慮應用後量子密碼學和量子保密通訊等新興技術方法。

數字經濟發展對資料智慧升級提出了更高要求,小樣本學習熱度激增

當前人類社會已經從大資料時代步入人工智慧時代,人們已經不能滿足於僅對資料進行簡單加工處理形成資訊的常規應用,基於大資料的人工智慧發展如火如荼;但同時也不得不思考這樣一個問題 —— 是否只有大資料才能驅動人工智慧,若沒有足夠量的資料樣本就意味著無法實現人工智慧了嗎?顯然,無論資料樣本量如何都不會影響人們追求和獲得人工智慧能力的決心,因此小樣本學習新興技術應運而生。

小樣本學習不僅在學界被認為是從現有的資料智慧邁向更強人工智慧的重要一步,同時在業界應用方面也頗具現實意義和重要實用價值。產業數字化是數字經濟發展的重要方向之一,而產業數字金融則是產業數字化、數字經濟規模化發展的加速器。產業數字金融風控所面對的資料要素情況不同於消費數字金融和普惠數字金融那樣的大規模樣本量,特別是對公業務區域化、生態化、場景化細分後,資料樣本量很小,加之有些新行業新業務尚在“冷啟動”階段,尚未有效積累業務資料樣本,因此在資料要素方面很難滿足風控建模的需要。這時,小樣本學習技術就派上用場了。

從目前發展來看,當樣本量充足時,存在於資料中的規律更容易被歸納出來,並且在測試資料上可以得到具有更小泛化誤差的知識模型。然而,在資料樣本量很小且“正例”樣本量極小的苛刻條件下如何實現資料探勘與機器學習,這是值得關注的。

借鑑精益六西格瑪“人-機-料-法-環-測”方法論框架,小樣本學習的多種技術方法可以被梳理如下:

1、

基於人類專家經驗的小樣本學習是指依託業務專家經驗形成規則來構建模型,常見的技術方法包括規則模型、評分卡模型、層次分析法模型、社交網路與知識圖譜模型等。

2、

基於資料資料增強的小樣本學習透過增加資料量將樣本擴充為大樣本來實現機器學習建模,常見的技術方法有兩類,一類就是前面提到的在“資料可用不可見”思想下,利用聯邦學習技術來實現多方共建模型;另一類是基於資料本身,透過樣本增強的方法,如採用SMOTE、GAN等技術方法來擴充樣本量從而支援建模。這裡值得進一步關注的是SMOTE、GAN的量子版技術QSMOTE、QGAN當前正在得到發展。

3、

基於演算法改進的小樣本學習聚焦演算法創新,選擇適當的嵌入方法將資料的原始特徵嵌入到一個可分的空間,在新空間構造特徵後進行建模,常見的技術方法包括支援向量機中的核函式法、分類關聯規則挖掘中的頻繁項集法和利用網路進行特徵嵌入法等。這裡值得進一步關注的是支援向量機和關聯規則挖掘當前也發展出了量子版演算法QSVM、QARM等。

4、

基於模擬環境的小樣本學習允許在極少樣本甚至零樣本的極端條件下,透過梳理業務傳導邏輯,構建端到端的數字孿生模擬模擬環境,並透過強化學習技術實現模型構建。這裡值得進一步關注的是某些強化學習任務可以透過量子近似最佳化演算法快速解決。

5、

基於預測模型調整的小樣本學習從模型的角度入手,利用某類資料集學會一種學習的機制,然後將模型遷移到目標小樣本資料集中,透過引數微調使得模型具有更強的泛化性,常見的技術方法包括遷移學習、元學習等。

6、

基於計算機發展的小樣本學習基於量子科技發展,將經典計算機升級為量子計算機,從而對小樣本資料集直接構建量子演算法模型,實證表明該類技術方法在解決小樣本學習問題上較傳統機器學習演算法有著明顯的優勢。這裡值得進一步關注的是該方案隨著量子科技的發展日益展現出蓬勃的生命力。

展望2023年大資料產業發展,隨著量子科技時代的全面開啟,量子科技將為AI大資料創新發展注入新動能。實際上,當前量子科技發展的兩大方向“量子計算”和“量子通訊”能夠使大資料領域的“資料智慧”和“資料安全”變得更加“矛尖盾厚”。2022年10月4日,諾貝爾物理學獎不負眾望地頒給了量子資訊領域,法國物理學家阿斯佩(Alain Aspect)、美國物理學家克勞澤(John F。 Clauser)以及奧地利物理學家塞林格(Anton Zeilinger)憑藉在量子資訊科學方面取得的卓越成就獲獎,再次引發了全球範圍內對量子科技的高度關注。

1、從資料應用的全生命週期視角來看,無論是在資料的生成與採集階段,還是在資料的傳輸與儲存階段,亦或是資料的計算與應用階段,量子科技都將為AI大資料發展提供新思路、新方案。

在資料生成與採集階段,以量子生成對抗網路QGAN及QSMOTE演算法為代表的一系列新演算法,結合數字孿生和模擬模擬等方法論體系,有望從資料來源頭上對小樣本資料集或不均衡資料集進行有效補充和增強,進一步擴充資料之源。

在資料傳輸與儲存階段,以量子直接通訊、量子金鑰分發技術為代表的量子通訊方案已在金融領域應用落地,量子通訊可以為資料傳輸提供受物理學定律保護的高度資訊保安方案,透過為資料資產打造“量子鏢局”,實現對關鍵資訊傳輸與流通的“保駕護航”。在該階段後量子密碼學也大有用武之地。

在資料計算與應用階段,量子機器學習類演算法已經在小樣本學習問題方面表現出良好效果,後續有望進一步實現突破,為各行各業各類業務發展中需要運用資料探勘與機器學習演算法模型的方方面面提供有效的量子演算法支撐;面向組合最佳化類問題,以量子演算法解決NP-hard問題已被證實表現出了良好的應用潛能,後續有望進一步擴充套件應用;此外,量子最佳化類、量子模擬模擬類演算法也已得到初步應用,後續有望運用量子模擬模擬相關演算法對基於蒙特卡洛等經典模擬方法進一步最佳化升級,從而解決更加廣泛的資料計算與資料應用問題。

2、從新技術組合創新的演進視角來看,量子科技將為以AI大資料為中心的新技術組合式發展注入全新動能。

當前科技大發展時代,雲計算、區塊鏈、隱私計算、機器學習、自然語言處理、計算機視覺、多模態識別等新興技術層出不窮,而這些新興技術均與AI大資料領域發生交集。顯然,量子科技也會與這些技術領域發生交集,從而發展出量子云計算、量子區塊鏈、量子隱私計算、量子機器學習、量子自然語言處理、量子計算機視覺、量子多模態識別等全新方向。這些新方向也將進一步賦能以AI大資料為中心的新技術組合式發展。

·

關於王彥博:

王彥博,博士,副研究員,龍盈智達(北京)科技有限公司首席資料科學家、副總裁級;曾在英國曼徹斯特大學和劍橋大學任博士後副研究員及訪問學者;兼任國家開發銀行專家委專家資源庫專家、中關村大資料產業聯盟智庫專家、騰訊雲TVP最具價值專家、紐約金融學院特聘專家、《財務管理研究》雜誌編輯委員會委員、對外經濟貿易大學金融科技研究中心副主任兼研究員、對外經濟貿易大學統計學院研究生導師,並在北京師範大學、外交學院、英國南安普頓大學擔任校外導師。他是英國利物浦大學培養的首批資料探勘專業博士;是國內首批EXIN資料保護官,DAMA中國“十大資料治理專家”;獲省部級科技獎勵一等獎1項、二等獎9項、三等獎2項;獲國家專利1項,軟體著作權30餘項,參與研製金融行業標準3項;發表著作1部、譯著1部、著作章節4篇,參與編寫專業書刊和培訓教材7本,發表學術文章100餘篇;在國內外頂級科技賽事上獲獎10餘項;留學期間曾獲國家優秀自費留學生獎學金等重要獎勵。

Top