您現在的位置是:首頁 > 棋牌
原來,知識圖譜是“找關係”的搖錢樹?
- 由 親愛的資料 發表于 棋牌
- 2022-11-10
戴爾伺服器後蓋怎麼拆
圖文原創:譚婧
全文稽核專家:朱小坤
知識圖譜,英文名Knowledge Graph,
是一種非結構化資料,
屬於圖資料
。
這裡被稱為“圖”的東西,不是圖畫的圖,而是圖論的圖。
知識圖譜資料模型的數學基礎源於“圖論”。
簡單說,是把零散的資訊有效地組織起來,把紛繁複雜的資料變成有用的知識,這是知識圖譜的意義。
下圖為,
中文醫學知識圖譜示意
。
知識圖譜有頂點(Vertex)和邊(Edge),
是關聯資料的高度抽象。
頂點和邊可以帶有屬性,能表示出不同的“關係”。
(一)如何“建”知識圖譜?
建
建大型知識圖譜,可
是個系統工程
。
人類學知識也是從詞彙開始,機器也一樣,詞彙本身也是比較簡單的“知識”。
從資訊中“抽取”知識,一定得是一個自動化技術,靠人工太累了。
從文字中抽取,
用
自然語言處理技術(NLP)
。
為了提高效能,技術能力強的廠商,會用到NLP大殺器——“預訓練大模型”。
而除了文字之外,企業有很多資料,圖片,音訊,影片,交易記錄等,
會用多模態技術,這種技術
的能力更強一些,技術難度也更高。
簡單講,計算機視角下,圖片和文字,都是不同的“模態”,所以是“多模態”。
從多模態資訊中得到一批非結構化資料(文字、影象、影片、語音)中包含的資訊,自動抽取並建立關係,形成知識圖譜。
知識圖譜上陣後,機器認識了“全面屏”手機,也能認識“曲面屏”
手機
。
機器能在電影的上下文裡認出《長津湖》是影片名,在歌手李健的上下文裡理解《貝加爾湖畔》是歌名,雖然這兩個詞又都是地名。
這時候,機器學會了舉一反三。
電商痛點之一是商品,使用者等關係刻畫不準確。
巧了,知識圖譜能精準刻畫屬性和關係,令運營和管理精細化。
電商建知識圖譜先得“看懂”“商品,鍋碗瓢盆都分不清,很尷尬。
為了看懂商品,引入“商品標籤”。
商品標籤是“知識理解”後的產物,也是對上面說到的多模態資料的提煉和抽象。
標籤是商品知識的一部分,標籤為
商品之間“建立關係”
貢獻了力量。
那些有相同標籤的商品就能連起來了,也就有了“關係”。商品標籤越多,知識越豐富。
除了標籤之外,商品之間會有一種天然的關係,是“品類”,而且商品類別會有多級。
舉一個真實的例子,京東商城的品類太多了,會用到一種黑科技:用熱門品類的標註資料,遷移到冷門品類。
黑科技背後會有頂級學術會議的論文來支援。也就是說機器理解了一些常見熱門
商品
品類,接著,又“有如神助”般地多學會了一些少見的商品品類。
這樣,機器成為了認識“
商品
品類”的小能手。
看懂商品名稱是基本功,若連商品標籤都不夠準確和精細,後續的電商運營策略和方法很難做好,成了“拔錯蘿蔔,帶錯泥”。
日後會被電商運營同學吐槽:我廠AI技術水平有待提高。
其實,演算法工程師沒閒著,一日復一日,年復一年,都在
用演算法提高準確度,儘量把模型設計的“聰明點”。
(二)電商公司,怎麼建知識圖譜?
知識圖譜離不了數學方法。
透過圖表示學習的方法,把頂點和邊都用數值化的向量來表示,對映到歐式空間裡面計算距離。
用距離衡量“關係”,
距離近,關係近。
距離遠,關係遠。
這樣,可以把一些隱藏關係給找出來。
頭部國內電商企業對知識圖譜的應用大約五六年前起步,
均在2021年左右建成超大規模電商知識圖譜。阿里巴巴有“藏經閣知識引擎”,京東有“知識大腦”。
如今,國內頭部電商動不動好幾億使用者,
50億以上商品相關實體
,
知識圖譜能夠達到非常大的規模,能做到
覆蓋零售全站商品和使用者。
連這個研究方向博士也驚歎:“之前,沒處理過這麼大的圖”。
構建大規模、高精度的知識圖譜,需要投入很大的人力物力財力,但是用好了能創造很大的商業價值。
假如一個電商收入一百億,利用知識圖譜提升1%的收入,就是多賺一個億,搖錢樹,非他莫屬。
最後補一點,
其實,
知識圖譜技術,很多人天天在用。
因為搜尋引擎早已離不開知識圖譜了,當你輕點滑鼠,查詢某個問題,搜尋會結合知識圖譜技術。
有兩本好書推薦:
1。《知識圖譜:概念與技術》(
肖仰華等著
)一書,多位專家推薦給我。
2。《圖深度學習:從理論到實踐》(顏偉鵬,包勇軍,朱小坤,姚普主編)。
這本書中的作者們,你會在我之前一篇文章中
(完)
全文稽核專家:
圖文原創作者:
最後,再介紹一下主編自己吧,
我是譚婧,科技和科普題材作者。
為了在時代中發現故事,
我圍追科技大神,堵截科技公司。
偶爾寫小說,畫漫畫。
生命短暫,不走捷徑。
還想看我的文章,就關注“親愛的資料”。
(三)知識圖譜+深度學習技術,原理是什麼?