微软亚洲工程院院长刘震：智能应用的普及化

9 月 23 日 - 24日，“MDCC 2016 移动开发者大会• 中国”（Mobile Developer Conference China 2016，简称 MDCC 2016）在北京• 国家会议中心隆重召开。本次大会由全球最大中文 IT 社区 CSDN 和中国最具关注度的全方位创业平台创新工场联合主办，以移动领域热点技术+典型应用案例实战为主的内容主旨，邀请国内外顶尖技术大牛、业界领袖，在实战经验中剖析技术方案与趋势，共同致力于推动中国移动互联网生态系统的成长。

微软亚洲工程院院长刘震在主题为《智能应用的普及化》的演讲中介绍在大数据的时代，分析已经成为商业成功的一个关键推动点。深厚的数学知识是人工智能的基础，海量的数据是建立良好模型的关键，然而这些构建分析所必需的条件却是大多数开发者所缺乏的。基于机器学习的人工智能和基于语境的人机交互已变为可能，刘震也结合微软认知服务的实际案例，从计算机视觉API、人脸识别API、情绪识别API、语言理解智能服务等方面多方位角度进行解读。

微软亚洲工程院院长刘震

人工智能的新时代

在一个新的时代里面，我们该如何应用智能技术为我们新的应用和新的企业的服务提供一个更高层次的价值。大家知道人工智能已经有60年的历史，最初的时候，大家对于人工智能的研究主要是逻辑理论，但是经历一段时间后该研究达到了瓶颈，到了70年代中的时候，第一个冬天来了，虽然当时有很多的算法出现，但是大家看到在人工智能上并不是人们想像的机器能够代替人的一切的智能。这不得不引发我们思考，如何能够把我们的知识传给机器，这个时候大家的想法就是变成专家系统，将人类的思维方式和我们学到的知识总结出来使得我们的应用更智能化，但是这个过程也是遇到了一个瓶颈，那就是我们的知识不能够简单化的一步一步的放在机器里边，这样的过程是无法普及化。所以80年代末，90年代初，第二个冬天来临。

从90年代中到现在我们迎来了一个新的春天，这个春天主要的标准在哪里呢？第一个毫无疑问是算法的进化，通过算法的进化以及计算能力指数式的提升，使得计算机能够很聪明，甚至能够一点一点地战胜人类。从国际象棋到自动驾驶，IBM的知识竞赛以及近期谷歌的AlphaGo都是体现了我们知识的能力。

此时智能应用主要的推动力是数据，因为曾经我们拥有计算机后，就一直在处理数据，但是因为计算能力的限制，数据的输入量，数据的采集量都受到了限制，现在因为有了指数级的发展之后，数据能够大量的采集。那么有了数据之后毫无疑问就是希望得到回报，获得回报就是基于应用之上，如何把原来的应用升级？现在来说，因为有了数据，有了人工智能，那我们从另外一个角度来考虑就更简单，就可以看看现在有哪些应用，在各行各业里边，哪些应用还没有完全的智能化，倘若没有智能的应用，就是给大家一个新的机遇。因为毫无疑问有了数据和智能化以后，我们的业务就会得到新的突飞猛进的发展，这就是新的价值提升，有了这样的价值提升，毫无疑问产品会更有竞争性，更有竞争力。

从这个角度来讲，可以看到未来各行各业，生活的每一个地方，都会有智能化的出现。智能化出现之后，如何把数据提升到洞察力，如何能够提供到决策的层次，从技术上来说，对大家都是一个挑战。从另外一个角度来看，也是考虑到数据科学家怎么样能够进入我们的开发领域，开发团队。

从开发者的角度来讲，毫无疑问我们有我们的技能，我们也应该学进步的技能，但是真正能够把人工智能的技术从头到尾，从零开始学起，这首先不是特别的现实，其次学了之后跟着人家走，不能够达到最高层，那么怎么样能够从开发者的角度能够达到最高层呢？最关键的一点就是站在巨人的肩膀上，有哪些巨人？在这个领域里面有很多巨人，有谷歌、有IBM、Facebook、微软，这些公司不光是有很多人工智能和开发者的资源，同时更重要的一点，都有数据，而且愿意把这些数据和工具开发出来，开放之后就是给大家搭了一个平台，这个平台上有我们的数据有自己的算法，更重要的一点，是有一个模型，通过这种模型的应用，就可以直接把这些人工智能的精髓应用到我们的应用中，这就是微软认知服务的一个目的。让应用拥有人的智慧。其次是需要建立强大的模型，这些模型完全基于现在的数据、最优算法，这些算法都是在微软的产品线里面应用的，所以开放出来的这样一个平台，直接就是世界上最先进的技术。

微软认知服务

这些技术开放出来后，旨在让大家得到轻松的应用。现在来说，认知服务有哪些应用呢？有哪些API？在微软认知服务中，我们将从视觉、语音、语言、知识、搜索等方面进行解析，为大家提供一个思路。

从视觉角度，共有四个API：

分析图像： 基于所输入图像的视觉内容分析出图像的视觉特征，好比输入图像后，就可以将一些物体的标记找出，通过这些物体的标记同时来描述这些功能，可以看图说话；
识别名人： 可以识别来自全球各地涉及商界、政界、体育、娱乐界的名人；
读取图片中的文字（OCR）： 在图像中检测并识别文本；
生成缩略图：这个是一个简单的应用，是生成高品质和高存储效率的缩略图。

人脸识别API，大家可能都已经非常的熟悉了，微软去年将API发布后，就产生了一个效益，可以识人的年龄、性别等等更多的性质，比如可以把人脸上的特征都找出来，还可以做一些相似人脸的搜索、人脸分组等等。这是一个标志，把这个脸拿出来之后，大家可以看到年龄、性别。

另外是情绪识别API，上传照片可以看到图片中的人脸情绪，而且把人脸情绪百分比和可能性都呈现出来，表情呈现包含一个比例和概率。还有一个就是语言理解，大家在做智能家庭、智能办公、智能服务时，需要理解语言，比如说开灯或者关灯等等，你说的话要让机器来理解，该理解里边有两个问题，第一把面临的问题找出来，第二是把目标找出来。开灯，灯是目标，开灯是命令，所以要有语言理解的智能服务。这个是定义概念，之后把这个样本放上去，用微软认知服务平台，让它进行学习，就是智能的一个功能，能够识别你的语言。提供这个服务之后，可以做很多东西，其中有一个就是现在非常热的聊天机器人，机器要懂语言，所以刚才讲到语言理解API是非常有用的。微软近期开发了聊天机器人的平台，大家可以免费使用，通过该平台将很多聊天的平台连接一起，直接可以用多种平台。

如何创建一个聊天机器人？首先从业务出发，解析业务逻辑，理解机器工作原理，如对话、说话、说话的内容等。把这些都放在平台上，让机器来理解你的话、要的定义，然后再把这些定义输入到聊天机器人的平台上，就可以产生我们所要的聊天机器人。这是整个的框架，就是怎么样用聊天机器人建立我们自己的这样一个平台，怎么样用这个平台建立我们自己的聊天机器人，我们提供了SDK，提供了连接器，然后在用我刚才所说的认知服务的功能，来理解我们的语言。