您現在的位置是:首頁 > 籃球

科大訊飛認知智慧,從場景中來,到行業中去

  • 由 雷峰網leiphone 發表于 籃球
  • 2022-07-26
簡介2015年年初,盛志超所在的NLP認知群組建起“7人攻堅團隊”,拉開了科大訊飛在NLP領域應用深度學習的大幕:他們首先檢索了市場上所有與之相關的論文,並分成了幾個不同的“Paper reading”小組,分頭研究不同的方向,之後再互相講解代

訊能組什麼詞語

科大訊飛認知智慧,從場景中來,到行業中去

導語:關鍵技術頂天,行業認知立地。當打破了實驗室和現實的隔閡之後,技術不再侷限於自身,而是和廣大的外部場景做關聯,最終成就了科大訊飛AI技術能夠迅速從研發到規模化落地的能力。

自然語言處理(NLP)一直是人工智慧渴望攻克的難題。

直到2006年,來自上世紀末的網際網路時代累積的大量電子化的文字資料,以及深度學習的加持,終於讓機器翻譯乃至自然語言處理,走上了快車道。

深度學習秉承統計方法的機率傳統,不同的是,它基本不需要做特徵工程,而特徵工程需要大量的專家知識。

但盛志超發現,即便是十幾年後的現在,將基於深度學習技術的NLP應用進行落地時,他們也必須拋棄對技術的執念,迴歸行業的專家知識。

這是他在科大訊飛鑽研NLP技術8年來,最珍貴的經驗。

2011年從復旦大學畢業後,盛志超在一家創業公司做NLP的研究,經過兩年多的實踐積累,他希望尋找更大的平臺用科技創造真正的社會價值。而彼時的科大訊飛,也憑藉剛剛釋出的訊飛輸入法和語音雲而在人工智慧語音領域小有名氣。因著語音合成技術中前端文字韻律預測和文字關聯的契機,早已開始了NLP的涉足和探索,並且已經在語音互動和機器翻譯上有所實踐。

渴望用科技創造真正社會價值的人選擇了一家希冀“用人工智慧建設美好世界”的公司,一切都如此順理成章。

1、

黎明前夜,轉型成了必由之路

NLP 的歷史幾乎跟計算機和人工智慧(AI)的歷史一樣長。而由於其天然具有實現人與計算機之間用自然語言進行有效溝通的橋樑屬性,也就帶來一個非常有趣的現象,那就是在開始探索感知智慧的時候也總會連同認知智慧一起被牽涉其中。

這種現象在科大訊飛也得到了演繹。

語音合成技術中,前端的文字韻律預測,就和文字關聯很大。所以科大訊飛在成立初期開始語音探索時便涉足NLP領域,不過早期侷限於文字預測、語音識別的語言模型和文字檢索等內容。

2005年,科大訊飛成立AI研究院,正式將NLP與語音合成、評測和識別作為核心研究方向。

由此,科大訊飛NLP在落地方面的嘗試便開始在跌跌撞撞中一路行進。

2005年語音測評技術已經基本成熟,普通話測試系統通過了國家語委鑑定;語音合成技術也在2008年首次超過普通人說話水平,並連續多年在國際英文語音合成大賽中奪冠。

然而包括知識圖譜、語義檢索、簡訊分類、文字客服在內的多個方向,由於技術不夠成熟,遷移成本太高,基於文字方向的技術落地大多以失敗告終。

“那個時候大家其實是立足於技術去思考匹配它未來可能使用的場景,慢慢地就發現這條路特別難走。”

這段艱難探索經歷所覆盤出的經驗教訓,也在後來實踐中確切印證,也許是時候顛倒一下這種思維模式了。

既然“拿著蘿蔔去找坑”不奏效,那倒不如反其道而行。

一個基於實際業務場景和需求去反向倒逼技術打磨的思維開始逆轉當前的坎坷局面。

2014年,基於編碼器-解碼器結構的神經機器翻譯模型誕生,機器翻譯正式進入了深度學習的時代。

同年,科大訊飛AI研究院首席科學家魏思敏銳覺察到,未來公司內部要想在業界形成自己的技術優勢,必須要形成資料+模型的雙輪驅動模式,而深度學習正是這一模式成功的關鍵。

科大訊飛認知智慧,從場景中來,到行業中去

剛剛入職不久的盛志超,迎來了科大訊NLP技術發展的重要轉折點,這一次,他親歷其中。2015年年初,盛志超所在的NLP認知群組建起“7人攻堅團隊”,拉開了科大訊飛在NLP領域應用深度學習的大幕:他們首先檢索了市場上所有與之相關的論文,並分成了幾個不同的“Paper reading”小組,分頭研究不同的方向,之後再互相講解程式碼,同時動手嘗試復現論文中的模型、演算法等。

就這樣“7人攻堅團隊”成功將深度學習應用於NLP技術,並很快在公司範圍內推廣開來。

“當時我們的探索是走在很多高校和同行之前的”,回憶這段經歷,盛志超說,團隊彼此的信任、凝聚力和共同的決心是他們成功不可或缺的因素。時至今日,當初的 7人小組成員也早已成為科大訊飛不同業務方向的核心骨幹。

應用深度學習和基於場景倒逼技術打磨的思維轉變,科大訊飛的NLP終於要從黎明前夜得見破曉來臨。

2、從場景中來,到行業中去

許多優秀演員在塑造角色的時候,經常在前期去到角色真實的工作或生活場景中去“體驗生活”,在表演時力求達到忘我境界。

這種塑造方式淳樸而又難能可貴,卻和盛志超在落地NLP時的路徑相通。

2014年9月,剛剛入職10天的盛志超被派到科大訊飛北京研究院,參與語文作文評閱的技術研發和落地工作。

作文評閱分為評分和批改兩個方向,評分就是給文件判定一個分數,批改則需要根據文章中的語法使用是否正確、句式表達是否高階、內容是否符合主旨要求等維度進行綜合評定。

前者技術相對簡單,後者因為涉及認知問題則更為複雜。

如大家所知,小初高到大學,不同學習階段對高階表達和詞彙的定義標準差異巨大,所以在具體批改的時候也需要根據各學習階段的具體情況來具體“定義”。

正像盛志超所說,“評閱技術不但是要評分也要給出合理的反饋,必須基於場景知識做模組化處理,逐層拆解之後,才能給出相對科學的評分和使用者學習想要的反饋結果。”

“訊飛智學網剛剛上線的時候,作文評閱技術還是翻車出了異常。”盛志超說,這是他畢生難忘的經歷。

當時學校要求一場考試覆蓋1000個人,並且不能有一個人的評閱出現錯誤,但深度學習和傳統的機器學習都是統計意義上的模型,考慮的都是整體的機率,不會兼顧到每個學生的情況。

於是,狀況出現了。

英文作文的試卷開頭都會給出一段引言,要求學生續寫,而機器把引言當成了需要評閱的作答內容,其中一份作文即便是白卷也給了分數。試卷評分是一個非常嚴肅的事,這樣的失誤所影響的考試客觀公平性,不管是老師層面還是盛志超自己都覺得是不可彌補的。

而反觀其後,這次落地失敗的根源還是在於我們關注的指標和使用者實際場景關注的指標不一致。

這之後盛志超和團隊開始長期頻繁地“體驗學習生活”,和老師、學生、家長這些每一個與學習相關的關鍵角色去溝通交流,嘗試全面而真實地理解和定義在教育領域每一個細枝末節的需求問題。

“想要真的做好教育領域的認知落地,首先要忘記自己原來的身份,成為一名學生、家長或者老師”。

盛志超說的這個思路恰與當年張三丰傳授張無忌太極武功時的要義如出一轍:“太極拳只重其義,不重其招。你忘記所有的招式,就練成太極拳了。”

科大訊飛認知智慧,從場景中來,到行業中去

2016年,盛志超及團隊終於成功將作文評閱技術應用到高考和中考裡面,這也是國內首次在大規模正規考試中使用教育評測技術。

如果說這個只是解決了教育某一個特定“場景”的問題,那此後的“因材施教和個性化學習”則證明了科大訊飛在教育領域深耕的決心。

2020年初,盛志超迴歸教育開始攻關難度更高的因材施教的個性化學習方向。

盛志超坦言,自己也曾是學生,在學校度過二十多年的時光,即便作為學習的佼佼者他也依然無法總結出自己所謂的經驗給到其他求學者以參考。這背後的原因或許不是一句簡單的“畢竟適合每個人的學習方法是不一樣的”可以總結概括的。

或許它更指向一個數千年前就萌生的美好理想:“因材施教,有教無類”。我們追尋了千年,而現在盛志超和團隊正在一步步靠近它。

一個結合學習者的知識水平,為其提供定製化的動態教學策略的個性化方案開始了“減負增效”的使命。

以題目推薦為例,廣大師生都非常推崇的“題海戰術”,就此可以找到“有效刷題”的解法。這背後涉及到了認知診斷、深度學習、知識圖譜等一系列的技術集合。

參照著名心理學家維果茨基提出的“最近發展區理論”,個性化推題激發學生“潛能”的邏輯理解起來就很簡單:在現有水平上為學生推薦的學習題型,既不會太難,產生畏難情緒,也不會太簡單,浪費過多的時間,用盛志超的話來說就是“跳一跳就能夠得著”的學習資源。

但是想要精準定位到每個學生“跳一跳就能夠得著”的學習資源並非易事,這需要透過知識圖譜對學生的認知方式進行建模。

科大訊飛早有知識圖譜技術積澱。從2013年開始投入研發,2016年獲得國際知識圖譜構建大賽NIST TAC (KBP2016) 第一名,如今訊飛的知識圖譜技術已經積累了7年。

這張圖展示了一個學生的認知建模案例,其中紅色是掌握較差的知識點,黃色是掌握一般的知識點,綠色是掌握較好的知識點。

科大訊飛認知智慧,從場景中來,到行業中去

學生立足於綠色知識點,然後先學黃色知識點、再學紅色知識點,這就構成了每個學生獨特的學習路徑。這種循序漸進的方式,不僅提高了學習效率,也可以真正做到因人而異、因材施教。

深入場景和行業的方法論在教育領域得到了最佳驗證,可以預見,人工智慧對生產生活的改變也將不斷湧現,甚至那些不曾找到破題思路的重大歷史命題,或許也會在人工智慧領域找到新解。

3、重大歷史命題的破題新解

科大訊飛認知智慧,從場景中來,到行業中去

但是,由於教育、醫療、司法這些關聯民生剛需的重大歷史命題本身就是多個複雜問題的集合,所以人工智慧即便能夠給出解法,那也一定不再依賴於單一技術,必須是複雜系統的合力。

“就拿教育的AI學習機來說,這個裡面就涉及到了語音互動和評測、圖文識別、認知理解、知識圖譜、多維度學情畫像等一系列的相關技術。” 盛志超說的不假,除了上文中我們已經提到的個性化學習環節中的認知診斷、知識圖譜,一個普通學習鏈路的完成,遠比想象中複雜:

一個學生透過AI學習機把做完的作業進行拍照上傳,圖文識別技術把照片進行曲面矯正、畫面降噪等處理後即可對佈滿印刷體和手寫體甚至是公式的作業進行識別;此後NLP等技術開始針對問題以及文字中提到的資訊去自行推斷答案和批改;而對於做錯的題目,基於知識圖譜的技術可以針對其所涵蓋的知識點去進行最近發展區相關練習題型的推薦。

創新鏈條上各個關鍵技術深度融合,串聯打通了一個體系化的學習鏈路。

倘若我們向前追溯,會發現關鍵技術深度融合也需要至關重要的底層基建——單點核心技術突破並跨越應用鴻溝。

我們或許可以從多語種互動的實踐中印證這個結論。

當前,語音已成為萬物互聯時代人機互動的關鍵入口,語音輸入、語音搜尋、語音互動等技術已經成為手機、車載、玩具等智慧產品的標配。另一方面,“一帶一路”國家戰略的建設依賴語言互通,多語種翻譯技術價值凸顯。但是要將多語種的智慧語音語言技術做到實用水平,並沒有那麼容易。

不同語言獨特的語言現象十分複雜、小語種語言分析研究的積累和投入不足、訓練資料稀缺……這些客觀存在的難題就擺在眼前。

大家選擇了迎難而上、各個擊破。

資料方面,科大訊飛研發了基於人機協同的多語種資料標註平臺;演算法方面,重點開展了多語種端到端統一建模框架、無監督/弱監督訓練,以及語音/圖片翻譯多工協同最佳化等方向的研究;研發訓練效率最佳化方面,則構建了多語種模型自動訓練及定製最佳化平臺,以推動多語種系統的批次研發,解決人工耗時耗力的問題。

這些努力終於迎來了反饋。2021年10月26日,哈工大訊飛聯合實驗室(HFL)團隊以總平均分84。1位列權威多語言理解評測XTREME(由谷歌舉辦,旨在全面考察模型的多語言理解與跨語言遷移能力)榜首,四個賽道中獲得三項最好成績。而後11月10日,國際低資源多語種語音識別競賽OpenASR落下帷幕,科大訊飛-中科大語音及語言資訊處理國家工程實驗室(USTC-NELSLIP)聯合團隊參加了所有15個語種受限賽道和7個語種非受限賽道,並全部取得第一名的成績。

從單點的核心技術效果上取得突破,跨過應用門檻,再到把創新鏈條上各個關鍵技術進行深度融合,“系統性創新”卻仍沒有形成嚴格意義上的閉環。

畢竟解決問題的方法路徑雖然撥開迷霧逐漸清晰,但是“要解決什麼問題”才是困擾這些科學家們的難題本源。

教育、醫療、司法、城市生態,每一個詞語都無比厚重,一時間竟也無法用某幾個詞來總結和概括清楚其背後所牽連出的問題核心所謂何物:不管是教育的“減負增效”、“因材施教”、“資源均衡”,還是醫療的“醫療水平”、“就醫體驗”······

這些重大系統性命題到科學問題的轉化,也許正迴歸了NLP或者說是認知智慧的本真——

定義問題

“360行行行有專家,如何把各個行業的問題和知識特色定義好,怎麼樣形成一個框架把模型能夠不斷複製應用到各個行業”,這是盛志超和團隊面臨的挑戰,也是科大訊飛未來繼續突破的關鍵。

當重大系統性命題到科學問題的轉化能力愈加強勁,單點的核心技術不斷突破後深度融合、有機串聯,系統性創新也就真正可以成為宏大歷史命題的破題新解。

4、無限拓寬的神經網路

我們曾經在對話科大訊飛AI研究院CV群的時候,將科大訊飛比喻為一個很寬、很深的生成式神經網路。

一個典型的生成式神經網路包括了輸入層、編碼層、輸出層,對於一個AI企業而言,輸入是AI三要素:算力、資料、演算法,輸出是技術和產品,編碼層則是企業的組織方式和技術方法論,以及企業的人才。

在《不一樣的科大訊飛,他們把計算機視覺踢進“世界盃”》這篇文章中,我們瞭解了科大訊飛對人才的重視,以及獨特的組織方式。

研究院設立的3個研究方向——CV方向、認知方向、語音方向,相互獨立,又深度融合,為優秀的人才提供了平等、開放的交流平臺,讓他們得以鍛鍊自身、發揮潛力、博採眾長。

但這隻解開了科大訊飛這個神經網路的編碼層的一半秘密,另一半秘密,也許可以從盛志超和團隊在NLP落地路徑上一窺究竟:不管是當初勢在必行的轉型之路,還是後來在教育、醫療等場景領域的打磨,一切核心都是在做一件事兒,那就是定義並建立對不同行業的真正認知。

認知行業和定義問題,使得科大訊飛在選擇方向時不受自身行動能力的限制,進而無限拓寬了科大訊飛這個神經網路的寬度。

關鍵技術頂天,行業認知立地,當打破了實驗室和現實的隔閡之後,技術不再侷限於自身,而是和廣大的外部場景做關聯,最終成就了科大訊飛AI技術能夠迅速從研發到規模化落地的能力。我們也就有理由相信,“用人工智慧建設美好世界”的使命絕不是紙上談兵。

雷峰網雷峰網雷峰網

Top