您現在的位置是:首頁 > 籃球

toolbar

  • 由 人人都是產品經理 發表于 籃球
  • 2022-01-11
簡介詞編碼現在把“我喜歡你”這個文字透過分詞分成“我”、“喜歡”、“你”三個詞,此時把這三詞作為計算機的輸入,計算機是無法理解的,所以我們把這些詞轉換成計算機能理解的方式,即詞編碼,現在普遍是將詞表示為詞向量,來作為機器學習的輸入和表示空間

所以是不是所字短語

文章從NLP是什麼、能做什麼、目前遇到的難題三個方面,對NLP展開分析。

toolbar

NLP是人工智慧的一個子領域,作為AI產品經理,我們至少要知道NLP是什麼,它能做什麼事,這樣我們就能獲得一種解決問題的思維,將遇到的問題和方法連線起來。接下來我從“NLP是什麼、能做什麼、目前遇到的難題”三個方面來簡單介紹下NLP。

一.什麼是NLP

NLP,中文叫自然語言處理,簡單來說,是一門讓計算機理解、分析以及生成自然語言的學科,大概的研究過程是:研製出可以表示語言能力的模型——提出各種方法來不斷提高語言模型的能力——根據語言模型來設計各種應用系統——不斷地完善語言模型。

NLP理解自然語言目前有兩種處理方式:

1。基於規則來理解自然語言,即透過制定一些系列的規則來設計一個程式,然後透過這個程式來解決自然語言問題。輸入是規則,輸出是程式;

2。基於統計機器學習來理解自然語言,即用大量的資料透過機器學習演算法來訓練一個模型,然後透過這個模型來解決自然語言問題。輸入是資料和想要的結果,輸出是模型。

接下來簡單介紹NLP常見的任務或應用。

二.NLP能做什麼:

1。分詞

中文可以分為字、詞、短語、句子、段落、文件這幾個層面,如果要表達一個意思,很多時候透過一個字是無法表達的一個含義的,至少一個詞才能更好表達一個含義,所以一般情況是以“詞”為基本單位,用“詞”組合來表示“短語、、句子、段落、文件”,至於計算機的輸入是短語或句子或段落還是文件就要看具體的場景。由於中文不像英文那樣詞與詞之間用空格隔開,計算機無法用區分一個文字有哪些詞,所以要進行分詞。目前分詞常用的方法有兩種:

基於規則:Heuristic(啟發式)、關鍵字表

基於機器學習/統計方法:HMM(隱馬爾科夫模型)、CRF(條件隨機場)

(注:在這裡就不具體介紹方法的原理和實現過程了,大家感興趣,可以自行百度瞭解)

現狀分詞這項技術非常成熟了,分詞的準確率已經達到了可用的程度,也有很多第三方的庫供我們使用,比如jieba,所以一般在實際運用中我們會採用“jieba+自定義詞典”的方式進行分詞。

2。詞編碼

現在把“我喜歡你”這個文字透過分詞分成“我”、“喜歡”、“你”三個詞,此時把這三詞作為計算機的輸入,計算機是無法理解的,所以我們把這些詞轉換成計算機能理解的方式,即詞編碼,現在普遍是將詞表示為詞向量,來作為機器學習的輸入和表示空間。目前有兩種表示空間:

(1)離散表示:

A。One-hot表示

假設我們的語料庫是:

我喜歡你你對我有感覺嗎

詞典{“我”:1,“喜歡”:2,“你”:3,“對“:4,“有”:5,“感覺”:6,“嗎”:7} 。一共有七個維度。

所以用One-hot表示:

“我” :[1, 0, 0, 0, 0, 0, 0]

“喜歡”:[0, 1, 0, 0, 0, 0, 0]

········

“嗎” :[0, 0, 0, 0, 0, 0, 1]

即一個詞用一個維度表示

B。bag of word:即將所有詞的向量直接加和作為一個文件的向量。

所以“我 喜歡 你”就表示為:“[1, 1, 1, 0, 0, 0, 0]”。

C。 Bi-gram和N-gram(語言模型):考慮了詞的順序,用詞組合表示一個詞向量。

這三種方式背後的思想是:不同的詞都代表著不同的維度,即一個“單位”(詞或詞組合等)為一個維度。

(2)分散式表示:word2vec,表示一個共現矩陣向量。其背後的思想是“一個詞可以用其附近的詞來表示”。

離散式或分散式的表示空間都有它們各自的優缺點,感興趣的讀者可以自行查資料瞭解,在這裡不闡述了。這裡有一個問題,當語料庫越大時,包含的詞就越多,那詞向量的維度就越大,這樣在空間儲存和計算量都會指數增大,所以工程師在處理詞向量時,一般都會進行降維,降維就意味著部分資訊會丟失,從而影響最終的效果,所以作為產品經理,跟進專案開發時,也需要了解工程師降維的合理性。

3。自動文摘

自動文摘是指在原始文字中自動摘要出關鍵的文字或知識。為什麼需要自動文摘?有兩個主要的原因:

(1)資訊過載,我們需要在大量的文字中抽出最有用、最有價值的文字;

(2)人工摘要的成本非常高。目前自動文摘有兩種解決思路:第一種是extractive(抽取式),從原始文字中找到一些關鍵的句子,組成一篇摘要;另一種方式是abstractive(摘要式),計算機先理解原始文字的內容,再用自己的意思將其表達出來。自動文摘技術目前在新聞領域運用的最廣,在資訊過載的時代,用該技術幫助使用者用最短的時間瞭解最多、最有價值的新聞。此外,如何在非結構的資料中提取結構化的知識也將是問答機器人的一大方向。

4。實體識別

實體識別是指在一個文字中,識別出具體特定類別的實體,例如人名、地名、數值、專有名詞等。它在資訊檢索、自動問答、知識圖譜等領域運用的比較多。實體識別的目的就是告訴計算機這個詞是屬於某類實體,有助於識別出使用者意圖。比如百度的知識圖譜:

toolbar

“周星馳多大了”識別出的實體是“周星馳”(明星實體),關係是“年齡”,搜尋系統可以知道使用者提問的是某個明星的年齡,然後結合資料“周星馳 出生時間 1962年6月22日”以及當前日期來推算出周星馳的年齡,並把結果直接把這個結果顯示給使用者,而不是顯示候選答案的連結。

此外,NLP常見的任務還有:主題識別、機器翻譯、文字分類、文字生成、情感分析、關鍵字提取、文字相似度等,以後有時間再為大家做簡單介紹。

三.NLP目前存在的難點

1。語言不規範,靈活性高

自然語言並不規範,雖然可以找一些基本規則,但是自然語言太靈活了,同一個意思可以用多種方式來表達,不管是基於規則來理解自然語言還是透過機器學習來學習資料內在的特徵都顯得比較困難。

2。錯別字

在處理文字時,我們會發現有大量的錯別字,怎麼樣讓計算機理解這些錯別字想表達的真正含義,也是NLP的一大難點

3。新詞

我們處在網際網路高速發展的時代,網上每天都會產生大量的新詞,我們如何快速地發現這些新詞,並讓計算機理解也是NLP的難點

4。用詞向量來表示詞依然存在不足

上述,我們講到,我們是透過詞向量來讓計算機理解詞,但是詞向量所表示的空間,它是離散,而不是連續,比如表示一些正面的詞:好,很好,棒,厲害等,在“好”到“很好”的詞向量空間中,你是不能找到一些詞,從“好”連續到“很好”,所以它是離散、不連續的,不連續最大的問題就是不可導。計算機是處理可導的函式非常容易,不可導的話,計算量就上來了。

當然現在也有一些演算法是計算詞向量做了連續近似化,但這肯定伴隨著資訊的損失。總之,詞向量並不是最好的表示詞的方式,需要一種更好的數學語言來表示詞,當然可能我們人類的自然語言本身就是不連續的,或者人類無法創建出“連續”的自然語言。

小結:

透過上述的內容,我們已經大概知道了“NLP是什麼、能做什麼以及目前存在的難題”。作為人工智慧產品經理,瞭解NLP技術能夠提高我們自己的技術理解力,在理解行業需求、推進專案開展都有非常大的幫助,其實這可以讓我們獲得是一種連線能力,將需求與工程師連線起來,將問題與解決方案連線起來。雖然NLP等人工智慧技術存在很多不足,但我們需要調整好自己的心態,人工智慧應用化才剛剛開始,必然是不夠完美的,不要成為批判者,而是成為人工智慧時代的推進者。

作者:在產品汪的路上

本文由 @在產品汪的路上 授權釋出於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自PEXELS,基於CC0協議

Top