由中国人工智能学会、中文信息学会主办,亿欧承办的2017·全球人工智能技术大会在北京·国家会议中心拉开帷幕,5月22日当天有12个主题的分论坛,其中《未来已来-人工智能创业创新分论坛》参与的嘉宾包括亿欧-副总裁兼智库研究院院长-由天宇、秦苍科技-联合创始人兼CTO-李炫熠、格灵深瞳-CTO-邓亚峰、IBM-中国研究院大数据及认知计算研究总监-苏中、云迹科技-高级副总裁-张名举、华西幸福-推广中心总经理-李海峰、搜狐-大数据中心副总经理-管延放。
秦苍科技联合创始人兼CTO李炫熠做了主题为“人工智能如何深度运用于消费金融的风险决策”的演讲,以下为其演讲速记整理:
今天非常高兴参加这样一个会议,给大家分享一下我们公司在消费金融行业里面实践人工智能的心得。大家都知道在消费金融业务中,最重要的是风险管理。今天我分享的主题是人工智能如何深度运用于消费金融的风险决策。
提到消费金融大家可能不会太陌生,2016年,李克强总理在做这个三月份的政府工作报告的时候,大力倡导发展消费金融,所以近两年来,消费金融的发展非常迅速,事实上,消费金融是一个比较历史悠久的业态,鲁迅先生在孔乙己当中对消费金融有这样一个描述,就是赊帐,赊购是消费金融比较初始的业态。
随着消费金融的进步,消费金融在客户和商户之间直接的赊购关系发生成由第三方提供的集中式的消费内容提供商的业态。在这个业务发展过程中也会不断的出现新挑战,秦苍科技成立了三年多时间,这个过程中经历了各种各样的挑战,所以我这里简单跟大家分享一下我们在消费金融领域遇到的一些比较重要的挑战。
第一点,薄文件人群的风险识别,什么是薄文件人群呢?以信用卡为例,中国的人口中,央行有征信记录的一共是3.5亿人口,在座各位绝大部分是在这3.5亿人口里面的,相比中国的14亿总人口里面,中国的征信记录的覆盖率只有不到30%,而剩下的超过70%的人口是没有征信记录的人群,我们称之为薄文件人群,薄文件并不是说信用很差,只是说从来没有过信贷的记录。但是他们和在座的一样,对信贷和消费金融有非常强烈的需求,而且他们当中绝大部分是征信比较好的,我们说新的,优质的人群。所以在没有传统的征信数据的支持下,我们怎么样去识别薄文件人群的信用和欺诈风险并提供优质服务这是目前我们消费金融面临的最重要的挑战。
第二点,在消费的场景的信贷服务,我们要提供一流的客户体验。用户进入到消费场景中,其实不是来借款的,也不是来跟你发生信贷为目的的,而是来购物的,来买东西的,好的消费金融服务应该让金融完全融入消费的环节。通过金融和服务的加持给消费能够带来更好的消费体验,用户体验的良好,其实不仅仅是可以提高客户的满意度,还能够吸引更加优质的人群。这是经济学当中非常典型的逆向选择问题,就是说你体验越好,你能够吸引到的客户人群就越好,对信贷,对体验能忍受较差体验的人,往往是资质比较差的人。
所以在整个用户体验的环节中有两个是非常关键的环节会影响到用户体验,一个是填写用户申请过程中的填写信息的数量和复杂度,第二个是审核时长,你要求的客户填写的信息越少,审核的时间越短,你用户体验就越好,从而可以吸引更有价值,或者是说更优质的客户。所以在风险可控的前提下,如何减少客户信息,快速完成审核,是第二个挑战。
第三个挑战是消费金融的单均,基本上两千到三千块钱的单均,每单的结果收益,或者是说绝对利息非常有限,对于单均低的如何在有效的控制成本是第三个挑战。
传统的一些风控方式,可能不能很好的解决前面提到的问题,拿信用卡来举例,信用卡和消费金融都是面对客户的零售业务。我们拿信用卡来对比阐述一下:
第一个是传统信用卡做信用审核的时候做决策的时候最多用到五十数据点,大部分来自于央行的征信报告。是征信的强变量,决策模型的使用上一般来讲使用简单的,线性的逻辑回归来做模型。对于线下的消费人群来讲,70%的客户都是没有,在央行查不到征信报告,所以面对没有央行征信记录的薄文件来讲,小规模的数据量和简单的模型很难做出精准的判断。
第二个是信用卡申请审核,有很大程度上会利用这个老专家的方法来识别客户风险,成本很高,而且由于依赖人的决策,决策的稳定性非常依赖老专家的主观因素。
第三个是信用卡的审批周期会比较长,我自己是一家银行的信用卡超过了十年的客户,从来没有逾期过,上个月申请一张新的信用卡,从我申请开始到我拿到信用卡开始使用,花了两周的时间,中间不算申请和寄送,中间审核过程花了一周多的时间。所以传统的审核方式和时效性很难满足我们线下消费场景中的客户的冲动购物的消费诉求。
因为我是做技术的,传统的风控手段面临的挑战,可能会让很多的传统公司甚至是传统的消费金融公司非常头疼。但是从技术的手段来讲,其实是无疑非常令人兴奋的,因为这给了技术创新一个非常大的空间。
对传统的银行我们可以做到,通过不断的技术创新以及人工智能的运用,可以做到针对一个陌生的客户填写的字段不超过20个,整个申请过程少于五分钟,平均审核时长少于三分钟,可以很快地给一个陌生的客户进行放款。与此同时,我们所有的风险表现在不断的持续改善。我们成立以来不断运用人工智能完善风控模型,真实的决策过程中,一直在做一些随机分流的冠军与挑战者的试验,我们可以看到不同的模型,同样的客群和同样的通过率的情况下的不同表现,我们同样用老模型替代新模型,让它用表现好的时候来不断提升表现水平,我们可以看到在相同的客群,相同的情况下通过人工智能或者是机器学习的算法方式比传统的基于统计的人工的方式提高25%左右。如此一项就可以给我们带来上千万风险成本的降低。
我们自己开发了“八爪鱼”的端到端的智能信贷技术平台,完全为薄文件人群的客户的生命周期管理量身定做。人工智能也是无缝的嵌在我们对客户的生命周期的管理中,尤其是在风险决策的过程中起到了非常重要的作用。所以接下来跟大家分享一下我们在八爪鱼人工智能的技术的业务实现中有几个新的发展。
第一个,长尾的数据和特征,能够很大程度上提高信用评分的准确性。对于薄文件人群来讲,我们策略近可能多的搜集和采集更多的弱变量,虽然申请过程中用户不用填超过20个字段,但是我们系统有一个叫做八爪鱼的机器人会以非侵入者的方式,不伤害用户体验的方式通过各种各样的渠道,比如说互联网,比如说设备传感器,比如说第三方的数据,包括了我们内部的数据,以及社交网络等等快速将搜集处理接近上万个数据点并且从中抽取出上万个特征,很快的将不到二十个数据迅速扩展为上万个信贷相关的数据点。
举一个例子,比如说客户在APP里面,我们有一个APP让客户填写下载申请,在APP里面客户拖动滚动条的过程中的停留时间和改动次数是一次性拖到最大,还是说在拖动的过程中反复等待,思考和停留,由于多次实际上这反应了不同客户的不同的心理,不同的心理对应了不同的违约率。大家可以猜猜看这三种不同客户行为中哪一种客户会带来更高的的违约率。比较明显的是其实第三种,为什么?客户毫不犹豫,不加思索拖到最高的了,不思考每个月多少钱,或者是说上来就拖到最高,类似于不同的用户行为我们都户采集,采集下来以后抽取成上万的特征,比如说用户的填写时长,改动次数,不仅仅是在这样的一个过程中,还会包括在比如说像填写家庭地址和联系人的手机号,是自己一个一个输入进去的还是说复制进去的,还是中间改了很多次,甚至是中间改了联系人姓名等等。在传统的信贷的评分中,像左边一样的,只能拿到一个结果,比如说三千就是拿到三千,不会拿到这样一个过程数据,他获取这样一个过程数据也不会使用到这个过程中,因为变量的信息太弱了,非常非常弱,不会一下子拉过去就是一个坏客户,不是这样使用的。
但是你要去识别这些若干的变量过程中的数据的价值,需要投入大量的技术。利用非常复杂的算法来挖掘,我们通过搜集成千上万的弱变量以丰富的维度来描述,使得机器对客户有全面的认知,做出比传统的我们依赖信贷记录或者是央行记录的强变量的建模方式更加精准和全面的判断。我们做过这个量化的测试,我们把长尾之后的五十个强变量之后的长尾的变量拿掉,然后和我们用所有的长尾变量加上前面的变量一起来做这个模型和特征来进行机器学习的建模。我们会发现50名以后的长尾弱变量能够有效的帮助模型提高预测的准确率,用VOC来看的话基本上可以提到5到10个点。
第二,机器学习的子总训练和实质性可以打幅度提高预测的准确性。由于传统的人工建模银行信用卡里面由于传统的人工建模过程过于复杂,一般来讲银行的评分卡每半年更新一次,有的稍微短一点,有的稍微长一点,我们做过比较,我们一直用最新的有表现的数据来训练,用一个移动的窗口的数据来训练,得到的模型比每半年换一次评分卡的模型预测准确率,也就是说我们用VOC来看的话能够提高5到10个点,原因是线下消费金融的人群有非常明显的时间效应,客户的特征并不是一成不变的。
举一个例子,同样来预测2016年5月份的客户,用4月份的客户数据来做训练得到的模型来做预测比用2016年3月份作为模型准确率提高了不少,用半年前,2015年10月份的客户来预测2016年5月份的客户,准确率有非常明显的下降,模型和准确性随着时间的不断的衰减,在我们的业务中,尤其明显。因此,模型必须要紧跟着客户和人群特征的自然变化,以及业务模式的不断的更新而不断的叠代和发展。那么机器学习的好处在于可以毫无人工干预的情况下自动的训练模型,跟传统的基于统计的专家模型来比。所以我们目前每天都会用一个最新有表现的窗口数据来训练机器,用最新的模型来预测明天。能够显著提升预测效果,相对于传统银行的每半年更新一次的做法,我们每天都在更新新的模型。两者之间的准确度不言而喻了。
第三,基于社交图谱的抱团模型可以有效动态监测欺诈。各位在申请信用卡的时候会添联系人,一般来说是父母或者是配偶,甚至是同事朋友,我们也会收集这样的联系人,但是和传统的银行用法不一样,传统银行拿这个东西来做修复,那么我们会怎么做呢?我们会拿到这个东西之后进一步利用所有的客户,已有的系统中的所有客户联系人据成一个巨大的社交网络,通过社交关系网络中的关联度和集中度,社交关系的逻辑沟迹等等的异常检测来动态的进行欺诈检测。
举一个非常简单的例子,也是真实发生的,有这样一个案件,有一个手机号被八个客户填为联系人,联系人的姓名都是不一样的,甚至是关系也不一样,有一些说是父母,有一些是说同事,朋友,甚至还有姐妹,除了这个姓名不一样,性别可能还不一样。那么,这是非常明显的联系人欺诈,虚假联系人的欺诈行为,这是非常简单的通过规则能够盘钻出来的例子,再举一个例子,每来一个新的联系,一个新的联系人,把他和他所有链的紧急联系人放在已有的社交网络中进行实时计算或者是已有的客户关联上会组成一个团,报在一起了,包成团的大小放在申请人这里有多少个联系人,团里面的申请人的好坏都已经决定了申请人的好坏。这是一个很大的理解让大家到抱团在数据中的应用。
基于图谱的抱团模型检测欺诈的案例远不止与此,可以说抱团是在我们的欺诈里面中是非常有效的一种手段。最后我们会发现我们最近在不断的探索中发现无监督学习对于对于规则的放向场景是一个很好的基础,大家知道对于银行或者是信贷熟悉的很少,一般来讲传统的反欺诈的手段就是基于规则来做的。比如说我每当发现一个新的欺诈手段,我的业务专家会在我的规则引擎里面去写一条规则,当看到这样这样的客户,满足这样这样的条件我就拒绝掉或者是报警,然后人工介入,这种方式有它的局限性,就是说它只能发现这些已知的手段和其他的且渣方式,在当今欺诈手段,特别是在中国,欺诈手段快速变化的环境中这个方式很难去快速的演变跟上现在的欺诈发展的速度。那么在研究这个数据的过程中我们发现虽然欺诈的方式一直在变,但是好的客户的特征,并不会发生剧烈的变化,特别是一个短周期里面。所以通过识别和好客户不太一样的行为特征,就可以比较有效的发现欺诈。
举一个例子,我们同一家门店,我们同时连续或者是说前后连续来了五个客人,这五个客人不是当地人,但是身份证填的位置是一样的。或者是说连进来的七个客户都是女的,中间没有任何一个难的,都拿着苹果6S过来办理,这个不能说是一种欺诈,但是,你通过这个,这个并不满足正常的统计的规律。这种事情太异常了。所以说我们通过无监督的学习的算法,发现这些异常,我们不能说是欺诈,发现异常之后可以及时进行干预,如果这些异常在历史上已经证明了它只要发生了异常就是一个比较好的,或者是说大部分的是一个欺诈的客户的话,那我们直接去,或者是说以前我们没有发现过这些异常就可以直接去进行人工的介入和干预,这样的话我们对一些位置的欺诈,就有了一定的防范手段。
之前各位说到人工智能有三个最基本条件中包含基础设施,我们理解基础设施很大程度上是计算的。所以海量的数据和算法,和复杂的算法其实离不开计算能力。面对一个新客户实时采集海量数据快速抽取复杂特征。并且在平均2.8分钟内做出决策。每天利用海量的历史数据更新最新的算法,这些需要强大的计算能力作为支撑。
举一个例子,我们在基于社交图谱的抱团欺诈检测中对于每一个客户都会放在现有的上千万甚至是上亿的节点中进行预算,看它到底调进哪一个团里面去了。对传统的技术架构的挑战是非常大的。秦苍科技现在所有的技术平台都是基于云计算和大数据平台来做这个基础设施来做一个平台的构建,所以基于此我们完全可以凭借业务的发展,可以根据客户量的多少,根据业务的发展,以及根据业务的需要做到计算资源的实时弹性的扩展。可以真正做到让计算资源即开即用,满足不同的业务需求和业务增长,始终保证客户的平滑体验。利用强大的计算资源和计算能力做支撑,通过海量的数据处理以及不断提升机器学习的算法。
秦苍科技的人工智能在不断的帮助提升风险决策,迎接当今消费金融新的挑战,创造新的价值,基于人工智能的全自动风险管理可以在更好的控制风险的情况下,提供更加快速的,更加有效的服务,提升用户体验,同时,降低运营成本。我相信在不久的未来,人工智能将成为中国消费金融业内主要的创新力量。
以上是我今天的分享,谢谢大家。