2017年5月21日,由中国人工智能学会、中文信息学会主办,亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕,学术界、工业界、高校师生参与其中,5月21日为活动的主论坛,主讲嘉宾包括中国人工智能学会理事长-李德毅院士、IBM中国研究院院长-沈晓卫、微软公司全球资深技术院士-黄学东、香港FDT金融银行家兼FDT总导师-马蔚华等。
黄学东做了主题为“语音识别和人工智能进展回顾”的演讲,本文为其演讲速记整理:
大家好!我今天非常高兴来到北京,在强烈的灯光照射下我看不到大家,但是大家能看到我。在我开始之前,我想跟大家简单介绍一下,我们是怎样一个激动人心的时代,我们生活在这个时代多么幸运。大家看一下这个视频。
我们过去多少代人没有实现的梦想,这是一个非常激动人心的时代。在我开始之前,我想给大家看一下经济学人的封面故事。封面故事说,我们终于可以和人交流了,封面故事讲的非常深刻,它是从1954年,IBM从做机器翻译开始,描述了从50年代、60年代、70年代,一直到2016年,几个很重要的历史性的里程碑。
这里可以看出来,在贝尔实验室当时做了很多语音识别的实验,一直到美国军方在70年代末发动了大规模的语音和语言理解的研究,到苹果、谷歌和微软相继推出语音的智能助理,深度的机器翻译和去年年末,微软第一次在(英文)上历史性的达到了和人一样的媲美的语音转录系统,这是一个追求卓越,追求人工智能突破一个非常显著的成就。
今天的计算机是非常了不起的人工智能里程碑
人工智能从总体上来讲包括了感知和认知两大类。感知的突破是前所未有的,认知的突破还非常难以预测。深度学习在计算机视觉上的突破非常激动人心,我们发明了深度的RESNET,层数有150多层,PPT很难展示,首次超过了人在图形识别上的精确性,这是一个非常了不起的成就。
在去年年末,我们再次获得了振奋人心的消息,语音识别系统达到了和人一样的高度,这是一个里程碑,我82年在清华大学做语音识别的研究,很难想象在30年中计算机的识别能超过人,因为语言是我们人特有的发明,我们和猴子最大的不同地方,我们可以用语言描述周围深刻的世界,可以描述我们看不见的东西。今天计算机第一次可以获得和人一样的精准的转录系统,这是非常了不起的人工智能里程碑。
在前两年,我和卡耐基梅隆大学(英文)教授和Dragon 创始人在ACM杂志合写了一篇语音识别过去40年的回顾,没想到这个回顾的东西已经过时了,由此可见语音识别、人工智能发展速度有多么快。这张图片大概总结了在过去几十年来,整个研究界在公开测试中做的努力,我们把平均发表(英文)的文章做了一个统计,大部分的系统都是在10%到15%左右,一些非常新颖的东西,错误率超过了20%,但是IBM在过去一直领导业界的潮流,他们在(英文)上取得了非常卓越的成就,在6%到5%之间。微软和其他很多同行一样,也在致力于开发语音助手,在Windows10我们和其他硬件厂商,像Harman Kardon提供语音音箱,深入我们的生活。
人工智能是深度学习、大数据、大计算和三类神经网络模型的乱炖
我们看另外一个话题,看他们造就了一个怎样的生态系统,看一下视频。我解释一下,我们采访了美国很多公司,他们是怎样开发自己的语音助理,一起为大家提供优秀的服务。人工智能的核心技术基本上经历了过去几十年的变化,现在最具有代表性的是深度学习。
深度学习基于好几个东西,第一个,我们需要有大的数据,所以智能语音能搜集非常多的数据,这是一个非常重要的东西。第二,不同的设备,像智能音箱,你的手机、PC和其他的智能设备,都会无缝结合起来,所以在这个互动情况下,人工智能可以发挥更大的作用。所以在人工智能这个过程中,我们需要大的计算,需要更强大的算法,需要更多的数据。在这三者的配合下,我们可以创新很多落地的服务,这就是今天我想重点介绍一下微软在人工智能落地服务有什么样的观点和看法。
神经网络是非常古老的技术,现在能焕发技术,最主要的原因是数据多了,计算大了,层次深了。在人工智能发展过程中,深度神经网络可以分为三类,第一类是传统的深度神经网络DNN,非常简单,把数据拿过来,通过加权不断迭代上去,可以模拟非常大的函数。第二是转积神经网络CNN,它可以去掉图像的位置变化,所以它对图像识别非常强大。第三类是RNN,可以模拟动态的时间训练,把过去的输出当为下一个时间的输入,这样可以描述动态的时间训练。
这三个东西各有千秋,都不错,加上强大的数据,基本上可以解决我们现在在感知方面遇到的主要问题。当然,因为深度学习的原因,在过去人工智能研发过程中,基本上是要去寻找新数据的算法,现在因为神经网络这个工具的强大,数据的丰富,和开源工具大家应有尽有,基本上变成了调参数的过程,所以只要有足够的计算资源就可以调出非常强大的系统,当然你不知道为什么它能工作的很好。
另外一个神经网络像东北菜的乱炖,把什么东西都放进去,做一个大杂烩出来,只要有足够的数据,足够的计算,就可以做出相当不错的系统,比如在语音识别这个过程中,环境噪音是非常难处理的问题,现在可以把环境噪音和其他的语音特征一起训练,你也搞不清为什么它能工作,它工作的很好,这就是让我们做信号处理很恼火的事情。同样的,各种人的口音不一样,你讲普通话可以讲不同的口音,音调高度都不一样,没有关系,我们可以吧i-vector当成一个特征和其他传统的语音特征放进去,可以训练出一套语音对所有人都能适应的系统。所以深度学习神经网络有很多意想不到的优点,就是特征学习非常独特,以前的人工智能模式识别需要做很多特征抽取的工作,现在基本上做大杂烩,只要有计算资源,只要有数据,通过一炖乱炖做出的菜也相当鲜美。
最后我用三张PPT,基本上把所谓人工智能有怎么样的突破总结出来了,基本上就是深度学习,大数据,大计算,再加上三类神经网络模型,DNN, CNN, RNN可以乱炖,做出杂烩非常鲜美,但是杂烩的化学成分什么样子,大家也没有好好研究,这些是有待我们进一步发掘和理解、探索的问题。
语音识别是怎么样达到和人一样媲美的水平
我想,剩下的时间给大家做一个简单的介绍,回顾一下微软语音识别是怎么样达到和人一样媲美的水平。在Switchboard研发过程中,大家多在想人识别这样的系统,到底精准度有多高,微软在2016年把Switchboard的测试系统,通过我们正常的标注,有两套人马通过比较标注,得到的错误率5.9%。IBM今年挑战微软,说你们错误率太高,所以他们在澳洲重新搞了四套人马,重新标注微软做过的系统,他们说人的水平如果花更多的时间,听的遍数更多可以做到5.1%,其实我觉得5.1%和5.9%是大同小异,很多人都不同意到底是5.1%还是5.9%。
我们在去年10月份首次达到5.8%的水平,我们觉得达到可以和人媲美的语音识别系统,至少是在Switchboard任务上。我们把三大神经网络系统完美整合起来,我们有10套神经网络系统在并行工作,通过最优组合创造了这个工程的奇迹。就像我刚刚讲的,深度学习基本上是东北乱炖,大杂烩,我们通过10套神经网络并行处理,得到了前所未有的历史性的里程碑,5.8%是我们去年报告的结果,这是一个了不起的奇迹。第一个是在Switchboard的语音识别的任务上,计算机达到了和人可以媲美的水平。
在今年2017年在ICASSP会议上,我们把计算机语音识别和人标注结果,让参加大会的人做一个选择,我们发现50%的人选择计算机,50%的人选择了人的标注,再次证明通过2017年ICASSP参会者的评价,大家分辨不出是人还是机器学习的结果。
简单介绍一下我们过去几十年人工智能语音识别总的发展情况,基本上就是这样一个状况,通过深度学习,通过大数据,通过强大的计算,我们可以达到前所未有的感知,计算机视觉和计算机语音识别的突破,但是在认知,推理上还有漫长的道路要走。在这样的情况下,我们一直在考虑,我们能给大家提供什么样的服务,你们不需要几十年,几千人的深度人工智能积累,也可以开发出更加智能的应用。
我们在两年前开始了微软认知服务的研发工作,到今天已经有将近30个云计算打包的人工智能服务,大家可以使用,这都在Azure的云平台上,从计算机语音识别到语言理解,知识表达和搜索,还有最新的人工智能的服务,我们都打包到Azure云上去了,所以大家在开发这个简单的程序的时候,不要去关注里面是怎么做的,你可以调用这个API就可以创造出Cortana一样强大的智能服务。
我想再强调,微软第一次做的非常精准的手势识别,可以通过事先标注的方法重新定义,因为手势识别,现在大部分人的做法,和70年代语音识别用的方法基本一样,一个手势用一个模板,70年代大家做语音识别的时候,就是一个字一个模板,出来一个新字大家不知道怎么办,要重新训练。
今天的语音识别是通过音素系统,你只要这个字的发音,写下来就可以了,语音识别通过了从模板到音素的转变,只要定义你的位置和手势的移动,我们可以定义一个手势的字典,这是非常激动人心的工作。下一个风口在那里,一定是Ambient Computing,像语音助手,你放一个智能音箱在家里,你可以随喊随到,根本不需要接触这个装置,所以计算机真的看不见了。语音有它的局限性,因为它很难描述这个和那个到底是什么东西,语音加上手势,一定是领导下一个计算机浪潮的领头军。所以我非常激动,微软的认知服务不仅仅是提供了语音识别,还提供了Cortana最基本的智能,大家可以参与在新的认知平台上,可以开发最新最高级的智能应用程序。
案例分析:微软的认知服务到底能做什么?
下面讲几个案例,通过微软的认知服务到底能做什么。比如微软最新技术Switchboard达到人的水平,这是在某一个环境下做成的,今天技术很难做成完全通用的,不管什么样的任务都很难做得和人一样优秀。我给大家演示一下游戏开发公司,用微软的量身定制的语音识别系统能做到什么程度。开发游戏的过程中,他们可以做到完全精准的语音声控和语言理解。
下面给大家演示一下微软小冰语音合成能做到什么样的水平,语音合成也是因为深度学习的关系,最近取得了长足的进展,它的自然度大家可以看看这个表,微软小冰的语音合成自然度已经非常接近人类的水平,给大家简单放一下小冰语音合成现在是什么样的情况,希望大家能听到这个音频。这些是通过我们深度学习语音合成翻译成比较自然的语音。
第三个案例,我想给大家介绍一下微软语音翻译系统,也是因为深度学习能做成什么样的水平。PPT下面有一个(英文),因为这是我的语音模型,我下面会讲一些英文,可以看到字幕可以实时转录过来。如果大家不看我英文的转录,你可以安装微软的翻译软件。微软在上个星期召开的大会上,我们的CEO演讲,在公司每个楼里有一个大屏幕直播,屏幕下面都是用微软的AI做了实时转录,因为有的人看不懂英文,可以用他的PC上的实时翻译,我们可以同时支持60种语言,我给大家看一下这个视频。这个语音是微软的产品,大家如果想试用,可以在苹果手机,安卓手机上下载,如果你用PC,也可以在网站上下载,我们可以同时支持100个人用60种语音集体聊天,我给大家做一下实时的演示。
如果我用我的电话讲中文、法文、日文、德文,可以在这个屏幕上实时翻译成英文。这是我要演示的另外一个案例,微软翻译系统,我们做过一个简单的评价,大家可以看出来,在以前是用统计做机器翻译,这个越高表示质量越好,从我们推出深度学习的机器翻译,质量有大幅度的提高,我们同时和谷歌的机器翻译做了比较,其实我们的水平是相当接近的,蓝色是代表微软的质量,越高越好,红色是代表谷歌的质量,这是我们用人评价中英翻译机器的质量。当然,机器翻译不像在Switchboard一样,可以达到人的水平,还需要有一些努力,我们希望提供更好的服务。
第四个案例给大家介绍智能客服,微软有非常多的产品线,我们的客服需求的工作是相当繁重的,对技术要求也相当深刻,可以说在全球500强里,我们对客服的要求非常高,微软用人工智能和深度学习的方法,最近推出了一个聊天的机器人,多伦多计划,这已经在美国上线了,所以如果你在美国的话,这时候已经有微软的语音智能客服为你解答问题,这是自然语言理解的系统,现在你不是和人聊天,你是和机器聊天,它像人工客服一样,一步一步可以帮你解决很多微软产品的问题,如果你不满意,这时候我们马上可以连入人工客服,为你解决你的问题,这是一个非常重要的人工智能解决实际问题的案例。
我讲了这些,微软的人工智能80%都是在我们的CNTK上面完成,这是我们最大的秘密武器,这已经是微软开源的深度学习系统。香港浸会大学在今年做过一个深刻的评测,这个表大家可能读不了,我跟大家简单介绍一下,香港浸会大学做了好几种不同神经网络的评测,最下面是DNN,CNN,and RNN/LSTM,可以看出来在GPU的情况下,不同的深度学习工具包,在不同的任务上的LSTM性能,CNTK用的是0.01,第二名是0.06,要慢6倍。
所以如果大家对人工智能真的非常感兴趣,有大的数据处理,这个训练速度是一个最大的问题,微软内部一直在用CNTK主要原因,是微软为商用人工智能产品处理的数据相当大,以前我们的语音识别系统训练时间数据量非常大,需要一到两个月时间,这样造成了为什么CNTK在微软内部非常重要,所以我们一直关注怎么样把深度学习的训练速度提上去,我们非常高兴,微软已经开源了深度学习的工具包,大家可以到网站上下载和使用CNTK,我们完全分享我们的秘密武器,所以让人工智能服务于所有的人是我们最重要的宗旨之一。
今年,英伟达在开了一个大会,他们的CEO自己做过一个评测,在这里面,这个绿色是越小越快,他们推出了最新的GPU,比以前的系统快很多倍,同时也评价了Caffe 2 和MxNET,这也是相当快的深度学习系统,可以看出来CNTK中间这个深度学习包,在最新的V系列上是前所未有的快,所以我们是非常自豪跟大家分享。
最后,我讲一下在中国的实际案例,这是一个医疗解决方案。在中国糖尿病性视网膜病变是很常见的并发症,全球有4亿多人有这样的问题,上海长征医院和Airdoc合作,用微软的CNTK开发了一个非常强大的计算机视觉识别系统Airdoc DR,检测糖尿病的正确率水平已经达到了中国普通医生的水平,所以这是一个非常了不起的,为中国老百姓提供实实在在的福利的人工智能案例,我想给大家看一下他们的视频。看到的是中国本土公司用微软的CNTK,怎么样解决实实在在的问题,为老百姓提供福利的非常好的案例。
总结一下,这是个非常激动人心的时代,就像刚刚我开始的时候视频介绍的一样,人类历史长河中,人类往前的进步是非常激动人心的,人工智能将带来的变革在今后10年将是以前2000年不可媲美的。再次感谢大家,我们能有这样一个非常激动人心的机会,和大家一起推动人工智能往前发展,在感知和认知上取得更大突破,造福人类,谢谢大家。