您現在的位置是:首頁 > 垂釣

位元組跳動火山翻譯上新 38 個稀有語種,翻譯能力再升級

  • 由 IT之家 發表于 垂釣
  • 2022-10-30
簡介▲ 藍色部分為火山翻譯上新的 38 個語種據瞭解,透過採用自研的 mRASP 多語言模型,火山翻譯僅使用一個模型就完成了上述 38 個語種與英文的雙向互譯,突破了傳統雙語言翻譯模型對每個語向單獨訓練、單獨上線服務的方式,大幅降低機器學習的訓

語種水平是什麼

IT之家 12 月 31 日訊息,2021 年 12 月,位元組跳動旗下的火山翻譯官網,

上新了包括世界語、塔希提語、韃靼語等在內的 38 個稀有語種的翻譯

。目前,包括漢語、英語、阿拉伯語、俄語、法語、西班牙語六個通用語種在內,火山翻譯已具備 94 個語種、

8742 個語向的翻譯能力

,整體 bleu(機器翻譯質量自動評估指標)達 33。45,處於行業領先水平。

位元組跳動火山翻譯上新 38 個稀有語種,翻譯能力再升級

▲ 藍色部分為火山翻譯上新的 38 個語種

據瞭解,

透過採用自研的 mRASP 多語言模型

,火山翻譯僅使用一個模型就完成了上述 38 個語種與英文的雙向互譯,突破了傳統雙語言翻譯模型對每個語向單獨訓練、單獨上線服務的方式,大幅降低機器學習的訓練和服務成本。

“通常情況下,訓練 76 個語向的雙語言模型需要 150-200 天。而相同硬體條件下,

訓練一個多語言模型只需要 30 天

。”火山翻譯團隊介紹,“對於請求量小的語種,使用 mRASP 模型集中服務可以大大節省計算資源,僅需半張用於深度學習訓練的 Tesla T4 顯示卡就可以滿足 38 個語言的全部翻譯請求,和雙語翻譯所需的資源一樣。”

IT之家瞭解到,火山翻譯透過  mRASP  中的對比學習和詞對齊資訊,可以很好地藉助單語語料和其他擁有豐富語料的語種來幫助訓練,彌補訓練資料的不足。資料顯示,火山翻譯此次上新的稀有語種平均 bleu 值達 33。36,其中,海地語翻譯表現最為突出,bleu 值達 50。76。

目前,火山翻譯擁有:

火山同傳、機器翻譯與影片翻譯三大產品

,支援飛書、今日頭條、西瓜影片等業務的翻譯需求,並透過位元組跳動旗下的企業級技術服務平臺火山引擎對外提供翻譯服務。

Top