“马云爸爸”成立快一年的达摩院,究竟在做什么?

2018-09-07 11:52:27秋军

  此前,阿里巴巴成立了量子计算实验室,主要是想通过颠覆性的量子计算能力,为客户提供基于量子计算的解决方案。据称,目前已经有“小有规模”的团队,是一个跨学科的国际化团队,希望是解决量子计算方面全栈问题。阿里巴巴目前没有透露进一步的详细信息。

  阿里巴巴目前的介绍也比较偏向于底层,物理实现层。而在其上面还有一些系统软件层,有算法层,应用层,每个层上都有很多问题。

  徐华提到,量子计算的普及还不太好预言,但有几个领域会比较受关注:

  一,量子体系的模拟。通过经典计算机进行量子系统模拟,结合量子计算机本身,一起对量子体系模拟。阿里巴巴目前已经有一些项目在测试了,现在不方便透露。

  二,阿里巴巴集团在人工智能优化领域有很多布局,业务层面有很多应用。量子计算对于人工智能有很强的加速作用,近期我们可能会开始一些项目的调研和启动。

  徐华认为,“当前业界仍是这样的状态——量子计算非常困难,被定义为极限计算。利用的是各种极端条件下,极限的物理条件来实现。”

  针对非标准汉语语法结构的斗争

  对于机器翻译来说,阿里巴巴拥有众多类似于跨境贸易的场景。

  在淘宝上,常见的场景是一面则是天猫上一件婴儿衣服,配有中文、图像,另外一面则是大洋彼岸阿里巴巴国际网站上同样的产品,用英文展现的。阿里巴巴产品数量的特性决定了,在阿里巴巴,众多商品页面、上亿个产品,不可能使用人工翻译。

  机器翻译有60年的历史,它的可用性在最近30年才达到如今的程度,而在这30年的前25年都是在做统计机器翻译。

  统计机器翻译,即通过大量双语语料建立一个统计模型。比如你看到“中国”这个字,英文翻译就是China,对于机器来说,“中国”这个词因为语料库的原因它大体是“China”,但“中国”这个词不仅是China,也可以是Chinese,甚至直接分解拆译成“中-国”也是有可能的。一个中文词有很多英语翻译,统计机器翻译出发点就是用大量双语语料自动学习翻译的辞典。

  它的优点,尤其是源语言和目标语言比较相像的翻译过程中,比如英语、西班牙语、法语,效果就非常好。

  而最近五年比较火的是神经网络机器翻译。直接说在效果上,它是看整个一个句子,不是看一个字,效果会比较好。所以在语句通顺度上会更好,英文它结合了一定上下文的意思来翻译。而唯一的问题是,神经网络机器翻译是一个黑盒子,如果这句话翻译错了,并不能实行人工干预,只能通过继续喂养一定的数据。

  在神经网络机器翻译领域,Google算是元老了——不管是新闻、对话、幽默、电视剧,都是一个模型翻。微软,也差不多类似;而Facebook也用这种方法来翻译社交网络。Amazon不太一样,使用通用机器翻译模型。

  谈到机器翻译在阿里巴巴的应用,则是不同场景下,建立不同模型。在传统统计机器翻译和神经网络机器翻译下,阿里巴巴开发了一套RBMT规则式机器翻译,采用三种方式翻译,原因在于淘宝需要对抗非标准汉语语法结构。

“马云爸爸”成立快一年的达摩院,究竟在做什么?

  在一张非常传统的淘宝商品页面,常见的标题可能是“碎花裙子女士明星最爱当季流行杨幂同款”,而用户评论则是正常通顺的语言。

  在这样的翻译需求里,数字、日期、地址,专有名词是比较固定的词语,会使用规则翻译。而描述性的、用户评论,则会采取神经翻译的系统。而对于国外用户搜索来说,他们不会去搜索这么冗长的标题,则还需要机器对于标题的内容进行理解总结,对商家冗长的标题进行优化,进行改写。另外阿里巴巴目前已经在结合淘宝图片内容对翻译结果进行合成,标题中的“镜”至少可以翻译成“mirror”、“lens”或“glasses”,但通常情况下,一张产品图就能解释一切。

  阿里巴巴不止一次提到,全球化是阿里集团未来20年三大核心战略之一。而让天下没有难做的生意,就演变成要让大家在语言沟通上零障碍。

  阿里巴巴提供的数据显示。以阿里巴巴国际站为例,七成买家以英语沟通,剩下30%为西班牙语、俄语、土耳其语等小语种,大约96%的卖家对小语种无能为力。

相关文章 大家在看