Meta Platforms今天开放了NLLB-200系统代码,NLLB-200是Meta内部开发的人工智能系统可以翻译200种语言的文本。
Meta还公布了一套旨在帮助研究人员更容易的工具NLLB-软件项目应用200。
根据Meta的说法,NLLB-200可以理解的200种语言中,许多语言都没有得到其他AI良好的翻译系统支持。目前,不到25种非洲语言得到了广泛使用的翻译工具的支持,而且NLLB-200 支持多达55种非洲语言。
Meta翻译的准确性是NLLB-200比其他工具更好。Meta采用的是BLEU评价系统的准确性标准,BLEU是衡量机器翻译文本质量的算法。Meta称,NLLB-200的BLEU平均得分比以前高44%。
Meta首席执行官Mark Zuckerberg表示:“我们刚刚开源了一个自主开发的AI该模型可翻译200种不同语言——许多语言没有得到当前翻译系统的支持。我们称之为这个项目No Language Left Behind,我们使用的人工智能建模技术正在高质量地翻译全球数十亿人使用的语言。”
NLLB-这些配置决定了200多个参数AI系统处理数据。人工智能系统参数越多,准确性越高。
NLLB-由于200具有如此大量的参数,这并不是它能够高精度支持200种语言的唯一因素NLLB-200系统00系统Meta许多其他工程师开发的工程师AI创新。
Meta使用内部开发LASER工具包支持机器学习相关研究。研究人员可以用工具包训练神经网络,用一种语言执行特定的任务,然后使神经网络相对容易适应其他语言,这对翻译非常有用。Meta开发了新的NLLB-支持200系统改进版LASER——LASER3。
LASER的原始版本包括一个名为LSTM这是一个将文本转换为神经网络的神经网络AI以数学方式表示的系统可以理解的特殊组件。这种数学表示有助于生成更准确的翻译结果。LASER3中,Meta用Transformer代替了LSTM神经网络,前者是一种先进的自然语言处理模型,可以更有效地执行相同的任务。
Meta还使用了其他几种改进方法NLLB-例如,200功能Meta升级了收集训练数据的系统AI改变了培训工作流程。

Meta使用内部开发Research SuperCluster超级计算机(如图所示)训练NLLB-200。今年1月Meta首次介绍Research SuperCluster该系统配备了6080个Nvidia最新的A100数据中心GPU,最终升级到配置16000GPU。
Meta计划使用NLLB-200在Facebook、Instagram在其他平台上提供更好的自动翻译功能,预计该系统每天将支持翻译超过250亿次。
Meta努力在内部推广NLLB-同时,计划帮助其他企业组织将该系统应用于自己的软件项目。
除了NLLB-200之外,Meta还开源训练AI代码,以及一个名字FLORES-用于评估翻译准确性的200数据集。Meta帮助非营利组织采用高达2万美元的资金NLLB-200。除此之外,Meta还将与Wikimedia Foundation将自动翻译技术应用于维基百科章。







