目前,阿里巴巴已经在做21种语言,48个语言方向,每一天要调动阿里巴巴机器翻译服务7.5亿次,每年翻译120万亿个词,不光印欧语系,还包括要翻译很多小语种语言。葛妮瑜表示,每一个方向都是很精细的做,从来不用搭桥的方式做。
阿里巴巴目前有众多使用到机器翻译的场景,每个场景的需求都需要被细致打磨——天猫出海,速卖通,支付宝,优酷视频字幕,以后电视剧机器都会自动翻译。目前菜鸟物流通关、阿里云国际社区、飞猪旅行翻译助手、钉钉社交口语翻译已经上线。
语音识别,IoT时代的基础技术
相较于前三个技术领域,最后介绍的语音技术可能离我们更近一些。
目前,Google已经推出了基于语音识别的智能音箱,偏智能语言识别和对话,微软小冰也上线了几年,也是通用语音识别,Amazon Echo也采用了语音识别技术,国内百度也有通用语音识别+输入法语音。
语音技术归纳起来可以从人听到到说话的过程理解。ASR语音识别,是识别听到的字和词;NLP自然语言是理解听到的话的含义;TTS则是语音技术合成,生成一段语音并传达。整个过程是从听到、听懂到生成。

语音技术的好坏的通用度量指标是识别错误率。在中国是字的识别错误率,英文则是词的识别错误率。据雷鸣介绍,现在一般识别错误率,比如做得比较好的是在一些比较好的领域,可以做到2-3%的错误率,做得比较差的是7-8%的错误率。
今天影响语音识别准确率的几个方面。一个方面,语音识别本身模块组成是分声学模型、语言模型、解码器三个部分。声学模型是给定语言学单元,计算输入语音匹配的可能性。“影响声学模型,很典型的就是辞典,今天不断有新词,新的发音进来,比如二次元文化。如果辞典不是新的,不能覆盖所有的目标识别领域,就不能识别。”
如今的识别环境同样考验硬件——麦克风的有效识别。如果不考虑麦克风还有环境因素,噪音、场地等这些噪音,语音识别的“鸡尾酒效应”则是指,在一个嘈杂环境下,如何识别语音主体的问题。
除此外,还有特殊领域的专有名词,中英混读以及年龄儿童音等。“在一些会议识别系统中,如果不提前知道会议要说什么,会识别的非常乱套。”
据介绍,阿里巴巴在语音识别模型方面最特别的是——Google和百度、讯飞基本上是基于LSTM模型技术,阿里巴巴主要基于DFSMN(深度前馈序列记忆网络)技术。据此前媒体公布的消息,对比目前业界使用最为广泛的LSTM模型,训练速度更快、识别准确率更高。采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍,语音识别速度提高了2倍。阿里提供的信息显示,该模型的语音识别准确率为96.04%。
商业模式方面,Google、百度、讯飞更多直接面向终端用户。阿里巴巴面更多的是面向合作伙伴。
据了解,阿里巴巴机器智能语音技术团队主要攻克语音识别方向,包括语音识别,语音合成,人机对话。智能语音交互团队主要做语音识别、语言理解、语音合成、人机交互、知识图谱、声纹识别等。
阿里巴巴已经有了一些应用。阿里巴巴园区7号楼的COSTA已经有一个语音点餐机,可以直接说出“两倍热巧克力”。
阿里巴巴还和上汽做了互联网汽车应用,具备全语音操控,包括基础语音能力,车载的地图/导航技能,也可以在云端不断升级和优化。
在上海地铁,已经拥有支持语音识别的售票机,你只需要对它说“买两张去陆家嘴的票”。
在法庭上,利用语音识别技术就可以做书记员基础的工作,最后让书记员做一些整理。雷鸣介绍,目前基本覆盖了300家法院。智能庭审覆盖的法庭数超过6千家,首家互联网法院,杭州互联网法院已经部署了这个系统。
IoT时代,雷鸣则提出,多模态语音交互和下一代对话引擎,在未来IoT时代非常重要的技术点。
写在最后
可以看出,此前阿里在各种大会上提出的AI应用,基本上已经在实践达摩院的研究能力。
此前,我们也曾详细介绍过阿里云ET农业大脑的“智能养猪”,阿里巴巴工程师就亲赴猪场就为每只猪建立了数字档案,也是建立在达摩院的技术体系之内。我们也可以得知,每个垂直领域的具体案例下会有很多详细的问题考究。










