2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。
蚂蚁金服人工智能部技术总监李小龙
全体大会上,蚂蚁金服人工智能部技术总监李小龙在《人工智能驱动金融生活》主题演讲中人工智能在金融领域有着广泛的应用,并通过多个案例分享了人工智能在提升金融领域产品用户体验提升上的突出表现。
首先以智能客服为例。蚂蚁金服借助大数据+人工智能技术,大大改善了以往自助服务中转人工率高、问题识别不准、答案匹配率低等问题。通过数据挖掘代替运营经验来发现用户真实的诉求,在标准问题挖掘方面,提出问题识别闭环——从客服对话中提取问句,再进行增量聚类。聚类结果并不是直接进入问题知识库,而是由人工进行一定的审核,所得的审核结果将能变成算法反馈,从而构成一个知识闭环。通过这样一个闭环,聚类算法越来越聪明,标准问题库就会像滚雪球一样不断扩大。
对话机器人是多一个多目标系统,需要拟人化的聊天对话。构造这样一个机器人,需要多技术的融合,包括深度学习、信息检索、数据挖掘、自然语言处理、知识表示、金融模型。聊天是最核心的功能,蚂蚁金服利用深度学习,针对客户提出的不同问题,采用不同的匹配技术。简单基本的问题,直接从模板库(采用AIML模板匹配)中查询;稍复杂、有些难度的问题,可通过问答库(采用问题语义匹配)来匹配回答;而对于没有靠谱答案、无法预测的问答,则通过挖掘大量网络对话数据,经过积累学习,形成一个模型(神经网络产生式模型),它将产生有逻辑意义、非常有趣的回答。
以下为演讲实录:
李小龙:很高兴在这里,第一次参加BDTC的大会。我是代表蚂蚁金服,我知道去年阿里已经有同事在这里跟大家分享过,今天也很荣幸来这里给大家分享这个题目,叫做人工智能驱动金融生活
我叫李小龙,我的英文名字也叫Bruce Lee,套用一句话,如有巧合纯属雷同。我现在是在蚂蚁金服的人工智能部。我做这个题目之前,想给大家先介绍一下为什么说人工智能这么重要,蚂蚁金服作为互联网金融的公司,我们是以信用为基础,AI驱动的有想象力的金融生活公司,我们致力于为全球20亿人提供普惠金融服务,这里面几个关键字是信用,我们希望把信用等同于财富,我们以AI驱动所有金融生活的场景。我们致力于提供普惠金融,也就是照顾到所有的大多数人的需求。
这里我们可以提到,金融生活的场景里其实有很多的技术元素,我们说场景化的金融,我们现在是移动互联网的阶段,也许下一个十年是万物互联,物联网的阶段。现在也有很多新兴的技术,包括AR、VR这种场景,我们都可以把它作为一个金融生活的场景化来服务。未来提供这样的服务,我们其实必须要做到两条,左边是我们利用机器学习、人工智能来提供智能化的服务,所谓智能化的金融产品就是能做到贴心、个性化,根据你的需求提供你所需要的服务。另外是通过区块链和生物识别的技术来提供安全,对于金融服务来说它的安全是它的基石,如果没有安全感用户根本不会使用你的金融服务的。为了实现这两方面的要求,我们底层是基于云计算,基于大规模的计算集群,大规模计算的大计算能力。
最上面是活数据,我们说大数据很重要,活数据更重要。我们必须把数据再现,要连接,要流动起来变成一个闭环,这就是我们说的活数据。我们可以知道人工智能包括很多的能力,包括机器学习、语音识别,我们更看重在金融产品中的应用,比如风控、智能助理、营销等等。我今天讲一下金融生活如果用人工智能来改变技术的体验。
很多人以为蚂蚁金服是以支付为主要的场景,其实支付只是我们的基础,我们已经有超过4.5亿的基础,包括许多其它的金融产品,比如消费者信贷,小企业信贷。如果大家用过花呗、借呗的朋友,他们可能知道,比如你在购物的时候可以直接用花呗这种虚拟信用卡购物,而不用现金。用借呗的朋友知道,现在已经有一些个人可以一次性贷款到超过一百万甚至几百万的额度,如果直接到银行去个人贷款是很难贷到的。举个例子,最近同事在杭州买房可以一下子贷到一百万到两百万的贷款。在借呗里,光利用借呗就可以买到一套房子,当然这只是说在杭州。
消费者信贷,后面有一个很重要的准入模型,还有一些反套现模型,都是基于人工智能的,其它产品比如业务安全、账户安全、交易安全、反洗钱,都是非常重要的基于大数据和人工智能来保障客户的安全。其它比如财富线,包括基金、精准营销、个性化推荐,芝麻信用,用户画像、信用评估这些都是非常重要的技术,最后是保险。
所有这些场景,背后都有一个基于云计算的人工智能的平台,来保证大数据能通过人工智能平台提供各种各样精准的服务和可信的服务。
人工智能在智能智能客服领域的应用
第一个场景我分享的是智能客服,这里列出智能客服几个比较典型的场景,比如餐饮。我们说智能客服最好的就是用户不需要问问题,用户进来的时候我们就知道你可能会碰到什么样的问题。实在不行的话,你可以跟他进行对话,一个机器人跟你后台对话。在小二工作台,你打电话进去,他会根据你实际的描述第一判断你可能遇到什么问题,这都是有很多的技术在后边的。
在蚂蚁客服上曾经碰到很大的挑战,大家知道这两年蚂蚁推出很多的业务,包括花呗、借呗、余额宝、网上银行等等,业务量增长非常大,这两年的业务量1.5倍,重点业务增长2倍。如果一个用户遇到困难的时候,一是自助,原来的自助转人工率非常高。二是可以打电话,里面又有很多的按纽让你选,有时候选了半天还是选不到,耗时比较长。最后进入人工之后还有一个问题,小二服务好不好,检验是靠人工的,是抽检的,所以参差不齐。会导致一旦有异常,影响非常大。还有下面一些审理,比如理赔的时候需要审理,原来也是靠人工,这样造成审理积压。业务量增长的情况下完全靠人工是不能长久的,就必须服务变革。我们列出自助服务端大幅度的提高性能,另外一边全部智能化。我今天的分享主要着力于效率非常明显的自助服务。
之前很多都是基于人工策略,成本非常高,有瓶颈。自助场景很大的问题是问题识别不准,答案匹配率比较低,即使用了还要转人工。现在用了大数据加人工智能,能达到识的准,读得懂。包括两部分,识别的时候很快能识别你的问题,我们经过模型的迭代进步,用深度学习来改变它的效果。另外是改进机器人的。解答方面,把原来的知识库变成智能知识库,通过所谓标准问题概念。经过大数据和人工智能优化以后,自助转人工率已经下降70%。
如果大家使用过支付宝,在首页的时候可以看到,有可能有“我的客服”,从这里可以进去。如果没有这个图表的话,可以点“其它”或者“全部”,“我的客服”首页上就是一些用户教育的部分,这是一个参与问题的场景。当你点进去,看到分两层展示,一层是遇到什么业务,比如说账户管理,也有可能是其它,比如花呗、借呗都可能放在这里。第二层是在某一个具体业务下碰到真正的问题,这种展示你不需要做任何的问题,如果正好有你遇到的问题,这里就是答案。如果没有检测对的话,你还可以用点击对话,或者机器人形象头像进入机器人对话的场景,他可以给你一些很好的回答。
这里根据人工客服数据设计一些精准的因子,比如今天转账几笔,每一笔多大,耗多少时间,这都是人工设计的。另外是后台,也是人工的,我们业务非常复杂,大概几百个业务。根据业务第一级,场景第二级,更细的场景是第三级,最后才到问题,也是通过人工设计的。但通过特征,也是一个比较简单的线性模型做的,中间可能会匹配好几个问题的时候会有一个人工的精准策略来具体到某一个问题,这里面也是人工设计的策略在里面。之前有太多人工,还有很大的问题没有数据闭环,没有用自己的场景来改进不断的调整自我学习,我们的远景是采用一些先进的算法比如深度学习,我们最终要减少人工,最终要构造一个数据的闭环。
这是我们最后的解决方案,我们首先在因子方面除了保留一些重要的精准因子之外,增加了用户模型,这个特征加进去之后效率大大提升。还加了服务轨迹,你来自助之前有没有打过电话,这些讯息都可以转过来,包括打电话的时候文本描述过程也是非常有用的。第二个是深度神经网络代替原来的线性模型。第三个是我后面想讲的,标准问题方面。原来我们都是四级人工问题,后来代替成全部由客户真实的问题提炼出的问题我们叫作标准问题,通过数据挖掘得到的。这中间发现真正人的数据而不是小二靠他的运营经验发现的。这里面把数据的模型和用户反馈全部打通,根据用户的点击改进模型来不断进行更新。
这是从数据中学习用户真实诉求,文本聚类之后发现同一个语义的问题有各种不同的说法。比如花呗还款没有逾期怎么还有手续费,可以对应这三种不同的说法,这样的标准问题经过聚类之后发现原来那么多的问题,最后聚下来其实每一个业务也就是那么些问题,这样每一个标准问题可以给他学习一个标准答案。
这是说明用挖掘来代替运营,经验发现用户的真实需求,其实本身是客服最大的一个期望。在标准问题挖掘方面我们也有一个闭环,从客服的对话提取问句,进行所谓的增量聚类。聚类的结果之后我们并不是直接入库进入问题知识库,而是人工小二进行一定的审核,审核之后提供的结果能变成算法的反馈,构成一个知识的闭环。
随着我们用的增量聚类的算法和最新的深度学习语义匹配的模型和其它的算法可以构成知识闭环之后,通过这个知识闭环聚类算法他就可以越来越聪明,标准问题就可以像滚雪球一样不断地扩大,人工的工作量越来越小到后面。
其实智能客服不仅仅是为你识别,还有异常定位。异常定位也是我们在智能客服里很重要的一个方面,这里举例子,原来如果完全靠人工做,靠坐席反馈异常的话,耗时125分钟,现在靠自动反馈的话,耗时35分钟。
这是我们今年双十一,我们知道蚂蚁和阿里巴巴创造了很多的新高数字,比如说最高一笔交易量达到12万,这是最新的世界纪录。在我们的大数交易笔数增加的时候,它的服务量也会增加,交易笔数增加48%,服务需求也增加42%,双十一一天有近千万次的服务需求。这中间我们发现其实真正到人工反而下降39%,到自助的增加了47%,自助里转人工小于1%,这个转人工率相比较去年下降68%,也就是说不到3%的需求才会需要找人工。这种情况下今年的坐席比去年还少11%以上。这是我们在客服上看到的一个很大的进步。
人工智能对客服机器人的性能提升
第二个例子是对话机器人,客服里有一个重要的产品是叫做客服机器人。如果要描述客服机器人,本身的逻辑也不是特别复杂。首先是看作一个知识工程的过程,首先从原始的人工对话里去挖掘数据,包括利用的运营专家知识,就可以得到一个问题答案作为知识库存下来。这个知识库服务的时候根据客服的问题进行一个匹配,根据这个匹配我们可以得到一定的答案。这个是展示完之后用户还可以提供反馈,反馈也可以给数据挖掘提供一个更好的帮助。从知识生产,到知识库,到知识消费就构成了客服机器人一个完成的流程。
如果我们说客服这个机器人,可能大家觉得不是特别时尚,如果构造一个完整的智能对话机器人,是一个多目标系统,首先要做一个拟人化的聊天对话,比如现在比较流行的就是微软的小冰。这个对话如果做拟人化的感觉是非常难的,这个时候需要有一系列的技术,后面会讲。其它就是通用知识问答,比如你问世界最高峰是什么,它会回答珠穆朗玛峰,这时候有一种他什么都知道的感觉。前面的客服是属于产品或者客户知识问答是要解决你的实际问题的。
还有比较常见的,微软的siri以及谷歌的机器人,他们所谓的叫作个人助手这一类,他们在完成比如定外卖、打车之类,对金融来说我们要提供普惠金融,有人问我20岁是个学生,我该买什么样的保险,我们该给他做一定的推荐,保险顾问或者投资顾问,这对后面的金融场景是一个非常重要的应用。
要构造一个对话机器人,必须是多技术的融合,聊天是现在最前沿的,我们采用深度学习的技术。对通用技术问答进行数据挖掘,对产品技术问答可以采用常规的信息检索的方式。什么样的条件推荐什么样的保险,什么杨得条件推荐什么样的投资建议,其实有一个金融模型在后面的。所有的技术合起来都属于人工智能的范畴,我们一起来打造多技术融合的对话机器人。
举个例子,聊天,我们看来聊天可以通过不同的层次进行匹配的,如果打造一个聊天机器人,首先是一些最常见最基本的问题,比如打招呼可以用一个模板直接匹配的,你好,很高兴认识你,用模型直接查询就可以回答了。稍微复杂一点,问题的匹配,比如今年几岁,有一定的难度,其实可以通过问答库来回答,所谓知识库。还有一种是最没有谱的问答,我们在网上称作神回答那种,其实背面是有一定的意义在背后的。要回答这种根本实现没法预测的问题的时候怎么办,现在采用神经网络产生式的模型,通过挖掘大量的网络上面的文本对话,比如说有很多这样的网站文本,我们可以把它进行积累、学习,并不是记住这个数据库,而是变成一个模型,但它是有逻辑意义的或者非常有趣的回答。
举个例子,你为何这么吊,他说因为我是吊丝。说你为什么这么漂亮?身材好,穿什么都好看。怎么样减肥?管住嘴,迈开腿。这样的回答可能不是非常准确的回答你的问题,但是非常有趣,跟很多网友在知乎、微博上回答你的问题是有意思的。
再有是通用知识问答,比如世界最高峰是什么,珠穆朗玛峰,我们可以通过搜索引擎去查询。跟搜索引擎不一样的是他给你很多的结果,我们这里只给一个最好的结果。最后怎么样筛选最好的结果可能是非常重要的一个地方。
我们在聚宝社区有一个应用,这是一个理财的小白,可能小白的用户喜欢理财,他有一些钱,想问一下怎么理财。就可以到蚂蚁聚宝社区里面去,像小白用户,他每天会问大量这样的问题,比如他问定投是什么,如果一个人在后面回答的话是忙不过来的,7×24小时都在回答,我们就让机器人去回答,他把这些常见的问题积累起来进行匹配。比如用户在实验的时候,问定投是什么,我们给他一个非常正规的回答。他当然没有看出来这是一个机器人,还说一楼好专业。其实我们还是希望能让这个机器人更加个性化,所以在用词上加了一些语气词让他觉得更亲切。
这个机器人已经上线将近一个月,但现在已经发现粉丝已经超过了3500人,已经抬到蚂蚁聚宝有粉丝数目的前三百个。我们采用深度学习的方法进行问题匹配,自己也每天都在跟踪它的问题回答的满意率,满意率现在大于90%,我们正在研发的聊天功能很快就会上线。
人工智能在蚂蚁金服其他产品中的应用
接下来讲蚂蚁的安全大脑,大数据风控。我们的蚂蚁安全大脑是完全基于大数据进行风控的,很重要的一部分就是核身认证,判断这个人在用这个帐号的时候是不是真实的用户。这时候我们碰到大量的数据,大量的行为,或者这种风险分析网络训练引擎。举个例子,支付宝有一个帐号险,一般人大概每年花1~2元钱就可以保你这个帐号,被盗之后最高赔付100万元。就说我们的风险控制,已经能做到一百万分之几,这是对我们安全的性能提高到一个非常高的程度。
其实我们的安全大脑背后,来自于全球的所有用户每时每刻都在进行着交易,转账、支付、基金、保险、理财。这样我们会抽取很多的特征、行为、关系、习惯,设备位置、账户,然后进行实时化的分析。我们背后用什么样的模型呢?最近已经上线了深度学习的模型,采用了基于大量数据来训练一个多层的神经网络,发现它比传统的模型效果好很多。
第四个案例是我们的芝麻信用分,我们觉得也是蚂蚁金服的一个非常有特色的服务。如果谈到信用分,以前说我们缺乏信用,但现在社会逐渐地向这方面改进。我们的芝麻信用分,可能很多人会谈论这个分怎么样才能提升,芝麻信用分包含了两点,一是用传统信用评估的方法,它基本上只用了一个维度,信用历史和履约能力,也就是偿还能力,以前的贷款怎么偿还。我们有着更多的消费者行为记录,我们尝试从一个更大范围的人为的角度,去描述这个人在日常的生产生活中可能会碰到各种各样信用上的表现,小到平时借一把雨伞、一个充电器,一个自信车会不会还。同时加入更多的维度,比如身份特征、行为偏好、人脉关系,这也是大家平时认识一个人的时候,我们自然而然会问这个人职业是什么,学历是什么,他的人脉广不广,他一般认识哪些朋友,如果他的朋友圈都是非常有信用的人,我们是不是也可以推测出这个人不会太差。
利用更多维度描述这个人信用方面的能力,导致一个很好的效果,就是我们信用的资质的覆盖率远远超过传统的信用评估,我们现在能覆盖到80%以上的用户,照顾了所谓长尾的人群,也解决了金融信贷机构数据孤岛的问题。我们芝麻信用分不仅仅是在蚂蚁金服内部的业务场景内使用,也是对所有的金融机构开放的,所有其它的信用机构信贷,在没有数据的时候,可以访问我们的芝麻信用分,在用的时候它的反欺诈效果非常好,在业界也获得了非常好的口碑。
第五个案例是蚂蚁微贷,也是基于大数据和机器学习的一个创新,和传统信贷非常的不同,传统信贷没有你的信贷历史,你的额度又很低,根本没法贷到钱。现在用基于大数据的机器学习的模式能做到所谓310,三分钟事情,一秒钟贷款,没有任何人值守,7×24小时就能给你一个很好的评分,很好的额度,一秒钟给你贷款。微贷为一千万的中小企业建立了授信资格,总计贷款达到了6千亿人民币。
要做到这一点有多层的数据到决策的方式,从基础数据,交易类、企业类、消费信贷类,这些数据都可以搜集起来,进行各种各样的处理,进行一些风险模型的训练。包括各个维度的描述,进行业务管理和决策,最后进入到业务流程里进行审批。整个基于海量数据和AI的训练和策略优化,实现了整个信贷流程的无人值守的全自动化。
最后一个案例是保险,支付宝里有很多的保险,有一两块钱保一年,最高赔付一百万。还有很多的健康险,小到碎屏险。还有运费险,你在淘宝电商上购买比较多的,退货的运费是一个老大难的问题,如果你买的东西比较贵的话,这个运费会非常高,如果买的东西比较小的话,可能退的运费钱还超过你买这个东西的成本,所以很多人不愿意负担这个退货的成本,商家也不愿意负担,我们这个运费险解决了这个问题。在你购买之前商家可以帮你购买也可以自己购买,几毛钱的保费可以保十几块钱的运费。
它是个差异化定价,根据大规模的消费行为和之前一系列的特征,进行前瞻性的实时的差异化定价,很快的进行预测,最后即使你出险了我们进行急速的核赔,构成一个闭环。在大数据的协作下,我们的业务量也是以每年超过百分之百的速度增长,可以预见在互联网金融场景下,所有的保险都可以用互联网的方式进行改进,甚至创新。
总结一下,我们认为在移动互联网这样一个时代以及物联网的时代,包括云计算也好,大数据也好,都为未来我们实现普惠金融提供了很好的条件,那么人工智能更是能在普惠金融方面方面起到决定性的驱动性的作用。人工智能就是让普通的用户可以享受智能化,个性化的金融服务。最后我们判断,用人工智能来驱动的金融生活一定是大有可为,我的分享先到这里,谢谢大家。