您現在的位置是:首頁 > 棋牌

原來,知識圖譜是“找關係”的搖錢樹?

  • 由 親愛的資料 發表于 棋牌
  • 2022-11-10
簡介從多模態資訊中得到一批非結構化資料(文字、影象、影片、語音)中包含的資訊,自動抽取並建立關係,形成知識圖譜

戴爾伺服器後蓋怎麼拆

原來,知識圖譜是“找關係”的搖錢樹?

圖文原創:譚婧

全文稽核專家:朱小坤

知識圖譜,英文名Knowledge Graph,

是一種非結構化資料,

屬於圖資料

這裡被稱為“圖”的東西,不是圖畫的圖,而是圖論的圖。

知識圖譜資料模型的數學基礎源於“圖論”。

簡單說,是把零散的資訊有效地組織起來,把紛繁複雜的資料變成有用的知識,這是知識圖譜的意義。

下圖為,

中文醫學知識圖譜示意

知識圖譜有頂點(Vertex)和邊(Edge),

是關聯資料的高度抽象。

頂點和邊可以帶有屬性,能表示出不同的“關係”。

(一)如何“建”知識圖譜?

建大型知識圖譜,可

是個系統工程

人類學知識也是從詞彙開始,機器也一樣,詞彙本身也是比較簡單的“知識”。

從資訊中“抽取”知識,一定得是一個自動化技術,靠人工太累了。

原來,知識圖譜是“找關係”的搖錢樹?

從文字中抽取,

自然語言處理技術(NLP)

為了提高效能,技術能力強的廠商,會用到NLP大殺器——“預訓練大模型”。

而除了文字之外,企業有很多資料,圖片,音訊,影片,交易記錄等,

會用多模態技術,這種技術

的能力更強一些,技術難度也更高。

簡單講,計算機視角下,圖片和文字,都是不同的“模態”,所以是“多模態”。

從多模態資訊中得到一批非結構化資料(文字、影象、影片、語音)中包含的資訊,自動抽取並建立關係,形成知識圖譜。

知識圖譜上陣後,機器認識了“全面屏”手機,也能認識“曲面屏”

手機

機器能在電影的上下文裡認出《長津湖》是影片名,在歌手李健的上下文裡理解《貝加爾湖畔》是歌名,雖然這兩個詞又都是地名。

這時候,機器學會了舉一反三。

電商痛點之一是商品,使用者等關係刻畫不準確。

巧了,知識圖譜能精準刻畫屬性和關係,令運營和管理精細化。

電商建知識圖譜先得“看懂”“商品,鍋碗瓢盆都分不清,很尷尬。

為了看懂商品,引入“商品標籤”。

商品標籤是“知識理解”後的產物,也是對上面說到的多模態資料的提煉和抽象。

標籤是商品知識的一部分,標籤為

商品之間“建立關係”

貢獻了力量。

那些有相同標籤的商品就能連起來了,也就有了“關係”。商品標籤越多,知識越豐富。

除了標籤之外,商品之間會有一種天然的關係,是“品類”,而且商品類別會有多級。

舉一個真實的例子,京東商城的品類太多了,會用到一種黑科技:用熱門品類的標註資料,遷移到冷門品類。

黑科技背後會有頂級學術會議的論文來支援。也就是說機器理解了一些常見熱門

商品

品類,接著,又“有如神助”般地多學會了一些少見的商品品類。

這樣,機器成為了認識“

商品

品類”的小能手。

看懂商品名稱是基本功,若連商品標籤都不夠準確和精細,後續的電商運營策略和方法很難做好,成了“拔錯蘿蔔,帶錯泥”。

日後會被電商運營同學吐槽:我廠AI技術水平有待提高。

其實,演算法工程師沒閒著,一日復一日,年復一年,都在

用演算法提高準確度,儘量把模型設計的“聰明點”。

(二)電商公司,怎麼建知識圖譜?

知識圖譜離不了數學方法。

透過圖表示學習的方法,把頂點和邊都用數值化的向量來表示,對映到歐式空間裡面計算距離。

用距離衡量“關係”,

距離近,關係近。

距離遠,關係遠。

這樣,可以把一些隱藏關係給找出來。

頭部國內電商企業對知識圖譜的應用大約五六年前起步,

均在2021年左右建成超大規模電商知識圖譜。阿里巴巴有“藏經閣知識引擎”,京東有“知識大腦”。

如今,國內頭部電商動不動好幾億使用者,

50億以上商品相關實體

知識圖譜能夠達到非常大的規模,能做到

覆蓋零售全站商品和使用者。

連這個研究方向博士也驚歎:“之前,沒處理過這麼大的圖”。

構建大規模、高精度的知識圖譜,需要投入很大的人力物力財力,但是用好了能創造很大的商業價值。

假如一個電商收入一百億,利用知識圖譜提升1%的收入,就是多賺一個億,搖錢樹,非他莫屬。

最後補一點,

其實,

知識圖譜技術,很多人天天在用。

因為搜尋引擎早已離不開知識圖譜了,當你輕點滑鼠,查詢某個問題,搜尋會結合知識圖譜技術。

有兩本好書推薦:

1。《知識圖譜:概念與技術》(

肖仰華等著

)一書,多位專家推薦給我。

2。《圖深度學習:從理論到實踐》(顏偉鵬,包勇軍,朱小坤,姚普主編)。

這本書中的作者們,你會在我之前一篇文章中

原來,知識圖譜是“找關係”的搖錢樹?

(完)

全文稽核專家:

圖文原創作者:

最後,再介紹一下主編自己吧,

我是譚婧,科技和科普題材作者。

為了在時代中發現故事,

我圍追科技大神,堵截科技公司。

偶爾寫小說,畫漫畫。

生命短暫,不走捷徑。

還想看我的文章,就關注“親愛的資料”。

原來,知識圖譜是“找關係”的搖錢樹?

(三)知識圖譜+深度學習技術,原理是什麼?

原來,知識圖譜是“找關係”的搖錢樹?

Top