XSUMMIT |商汤科技CEO徐立：看得见的人工智能人机大战和突破极限

为进一步推动中国乃至全球科技创新，鼓励并扶持创新发明者，保障广大创新成果得到转化及应用，2017年3月17日在北京国家会议中心隆重举办XSUMMIT未来科技峰会（简称：XSUMMIT峰会）。第六届全球游戏大会暨XSUMMIT峰会的主题：“连接未来”，是科技创新与文化创意方面的年度国际“双创”盛典。本届XSUMMIT峰会议题围绕人工智能等前沿科技热点展开，邀请到多位极具声望与影响力的科技界大牛到场分享，共同展望未来。

20170321045715674

商汤科技CEO徐立以“看得见的人工智能人机大战和突破极限”为主题展开精彩分享，以下为演讲实录：

感谢主持人，感谢主办方的邀请。我给大家介绍一下我今天讲的主题，为什么叫“看得见的人工智能”？是因为我们商汤科技做的就是机器视觉方面的内容，是人工智能的一个分支。但是比起其他行业来说，它看得见，摸得着。我想讲的就是人机大战的这么一个话题，在人工智能里面一个重要的作用。

我们也知道人工智能三起两落，很多人问我人工智能的三个波峰到底是一个临时的还是是一个趋势？特别是问到我说第一次，第二次究竟是什么原因？造成什么样的结果？我想了半天，我说这个得去问我爸，一九五几年的事，我也不是很清楚。

我们怎么定义人工智能的几个阶段？我现在这么来看，先到Google上进行了一个搜索。大家知道人工智能这件事其实跟最近的信息技术，叫深度学习相关的。我们所谓的人工智能第三波的浪潮到底是因何而起的？深度学习从2006年开始，于是我就把整个深度学习关键词的搜索量从2006年开始做了一个检索，发现一个很有意思的事情。它在2012-2013年的时候突然之间爆发的，潮流的变化并不是像刚才大家画的那张图那样慢慢上升起来的，它是一个变化。在那个时间点的深度学习被应用到机器视觉上面去，在大规模的视觉物体识别当中取得了突破，达到了前所未有的高度。我们可以理解在人工智能里面把一些核心技术应用到机器视觉的范畴可能会大规模地应用。当然，这里面还有另外一种可能性，就是在那个阶段我们计算能力GPU被正式应用到机器学习当中。

所以和那张趋势的图片不同，我认为很多人工智能的变化可能是一个突变，我把它定为三个阶段。第一个阶段，人工智能不如人的阶段，就是技不如人。作为生产力工具，没法大规模展开。第二，超过普通人的阶段。第三个阶段，超越专家的阶段。我稍微解释一下这几个阶段不同的地方。我们在2010年之前，在没有特别好的工具的情况下，就是没有像深度学习那样处理大数据的工具情况下，我们做出来的系统通常没有人的能力强。如果说一个专家指导了机器，按照每个规则做事情，通常比较难操作，它的极限也很大。所以，在那个阶段好像我们多了一个猩猩，能够帮我们干活，猩猩大规模地取代人是很难的。可能从2010年之前，我们的数据量突然之间积累到一定程度，有了处理大数据能力的工具，我们可以从人工指导智能变成一种纯数据驱动的智能。从数据中总结出规律，数据驱动的智能就不受人的影响，可以做到第二个阶段，叫超过普通人的阶段。为什么强调超过普通人？是因为机器其实是需要指导的，比如做人脸识别，需要人做一个指导，或者作为机器的输入这样才能够学会这个经验知识。

所幸的是，我们在过去的十年里可能积累了大量的数据，所以只要我们找一些这样标准的人员，用普通人的能力就能够帮助机器学会这些技能。这里讲所谓的普通能力是什么？比如我们做图像识别，做人脸识别。人脸识别的能力大家与生俱来，我家楼下的保安，楼里面住几千人，看到谁都能知道谁家小孩怎么样，七大姑八大姨怎么样了，说明这个技能不需要长期的训练，所以这是我们说的第二个阶段。但是，过了这个阶段，人工智能大规模地爆发。因为它可以取代这样的劳动力，我们得到的是生产力工具的提升，这就是我们现在所处的这个阶段，是一种爆发式增长的阶段。所以我才能解释刚才为什么是一个突变的阶段，是因为到了那个阶段突然之间会发现，已经可以达到这样的限制。

第三个阶段，专家的阶段，为什么说专家的阶段和第二个阶段来说有差别呢？因为我们要让机器学会，首先要有知识的指导。我们讲纯数据驱动智能，需要从大量的数据样本当中给出的指导和训练。那我们说多少数据呢？像人脸，我们数亿道数据做这些训练。它的知识没有办法去帮助机器很快地去演进，去突破。所以，对于算法的要求和对于数据的要求使得我们超过专家的阶段还没有达到。但是真正超过专家之后，我们确实可以达到一个服务的升级，以前的私有资源将变成不再稀有，这可能是人工智能下一个阶段的一大突破。

其中有一个例外，讲到人机大战，什么是例外呢Alpha go学围棋这件事情。围棋也是需要长时间积累，也是专家经验。为什么围棋能突破呢？是因为人类有史以来的这种赢局都已经被记录下来了，数据都已经有了，所以机器可以很快的开始。如果没有那些数据，Alpha go绝对不可能成功，所以这就是专家的经验有没有被很好地记录下来，这就取决于我们能不能达到专家的水平。退回来讲，我们做技术的核心点是什么？我们在做一件超人的活，一定要达到第二个阶段，超过普通人，很多人不信。怎么样超过普通人，加上机器视觉的两个方向。一个是成像，代表眼睛，输入。另外一个是理解，代表大脑，看完东西得消化、学会，其实机器视觉的领域我们一直做的就是超越普通人。

这是我做过的一篇文章用过的，也是我一直比较喜欢的图片。让大家猜一猜这个模糊的图片，它是一张明信片，这张明信片到底是哪个城市呢？有人说这是多伦多城市。机器可以从这样一张单张的模糊照片当中把图像恢复。刚才只是看的一小部分，机器能不能有更多创造性的部分。这是另外一个位置，美国的地表性建筑。国会大厦在bing的搜索引擎进行搜索，搜索出来关于国会大厦的画。第三幅是国会大厦现代画，是一个美国人画的，前面有一个草坪，上面有一个人，不知道在干什么。然后就这么一幅画是名画。机器同样画的是国会大厦，这是算法画的。我让很多人进行了一个比较，有一半以上的人选择了右边这幅，觉得右边这幅好一点，画的很有意境。所以，机器在一些创造性的事情上也已经做到可以超越人。

下来给大家看一个机器超越人的实景，人机大战。这张图是一个著名的图片，叫幻觉。看上去好像是PS的。拍这个照片的时候那时候还没有PS，怎么做到一个人，一个这么大，一个这么小。其实是这么拍的，房子里面是斜的，人一前一后，近大远小造成这个结果。人看这张照片可能有点迷惑，搞不清楚，所以才叫幻觉。机器怎么看？机器看了以后说，这两个人在不懂的层次上，根本不是在一个深度上，所以近大远小，你忽悠不了机器。

另外一个例子，也不是PS的。机器说鞋子近一点，人远一点，机器可以从一张照片里面的细枝末节学到一些人肉眼所不能掌握的知识。它能干嘛？有一个很有意思的相机，可以用单个镜头拍出来的照片先拍打后对焦，这也是一个现实的应用。

刚才讲了看的部分，现在我们讲理解这个部分。理解就更好理解了，因为跟人的大脑更接近。我们先讲一下，大家对商汤的了解可能更多是人脸识别，我们是世界上第一支团队把人脸识别做到超过人的。我们是从陌生人的识别开始。韩国小姐长的都一样，但是机器可以从中找出一些人所不能掌握的规律和知识，用这种知识进行这样一个识别，达到超过人的境界。机器超过人的时候，他带来了真正的核心生产力工具的提升，效率的提升，从而改变整个行业。

举几个好玩的例子，我电脑里面有很多电影、视频，我现在想看谁的片子就看谁的片子。前段时间有一个龙套文化，收几张照片，就可以把各种照片检索出来。从门禁也好，从安防也好，都可以有这样的应用。

再举另外一个例子，机器能干啥？机器还能够做忽悠人的事，视频当中如果说给你一张照片，咱们可以运用算法，可以把人变成你想要的换脸技术，这事人也干不了。

最后，给大家做一个测试。刚才讲到识别，机器比人强，很多人不信。现在拿一张照片，这是一个美国明星。我放大了就是中间这张图，右边三幅图中，大家觉得她是哪个人？机器可以做什么？把最左边这张图变成最右边的图，可以从真正意义上把视觉复原。所以，现在人工智能做的事情就是要超过人的准确度，大规模地进行生产力工具的提升。谢谢大家！

More Related Articles