2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。
2016中国大数据技术大会首日全体会议中,上午最后一位演讲嘉宾来自科大讯飞大数据研究院副院长谭昶,他带来了《讯飞大数据的实践与思考》的主题分享。他从语言谈起,分享科大讯飞在大数据领域的实践,他表示目前科大讯飞依靠海量实时的语言数据,目前他们的大数据技术已经在精准营销、个性化推荐和智慧城市方面得到广泛应用。
对于讯飞大数据能力平台Odeon他做了详细的介绍,他表示平台自2010年上线以来,目前日增数据达到100TB。另外,结合讯飞大数据与人工智能技术构建的讯飞DMP平台。已经完成人生阶段、行业偏好、购物兴趣、媒介兴趣5个大类1700个子标签的用户填充工作。累计覆盖12亿终端设备。
随后,他重点介绍了讯飞大数据技术在金融、游戏、教育、交通的应用实践,通过实际的应用他也分享了科大讯飞在大数据领域的思考,包括服务形态、市场变化、生态体系、技术需求。
在座的各位专家,大家上午好,我简单介绍一下科大讯飞在大数据方面的一些实践工作,以及我们对这些实践工作所产生的一些对大数据的市场以及技术发展的思考。
首先大家肯定会问科大讯飞,一家人工智能的企业,怎么去做大数据呢?你在大数据能做出什么独到的东西?我们首先从科大讯飞最擅长的也是大家最熟悉的语音识别的技术开始谈起,现在的语音识别技术已经全面转向深度学习,也就是最典型的人工智能一种代表性的研究方法。在这个模型之上怎么样把一个模型训练成一个好的语音识别的模型?一个语音识别的工具?实际上是需要很多的工具的,这个数据刚才也有提到的,多媒体数据,非结构化的数据。这样的数据进入识别的模型之中我们可以得到一个非常好的模型,这个模型好到什么程度?我们在讯飞开放平台上大家现在可以享受到每天30亿次,准确率高达97%的识别率,可以实现实时的语音转写和翻译功能。
这里总结两句话,简单提一提大数据和人工智能的关系,也就是讯飞为什么做大数据的解释。大数据可以让人工智能更加智能,而人工智能将会让大数据更有价值,因为很多以前没办法分析的非结构化、多媒体的数据已经可以被数据被梳理了。
讯飞在大数据方面做了哪些工作?我分为大概三个类别,第一类是人机交互,在人机交互方面通过讯飞开放平台、讯飞超脑提供了大概8.9亿的人工智能的服务,有一个非常好的讯飞输入法,可以实现一分钟400字的语音输入,并且识别准确度非常高;另外一点是讯飞在教育上的努力,讯飞服务了全国近一万所学校,提供了非常多的个性化学习,减轻老师的人工阅卷工作;还有一点是智慧政府,讯飞本质上是服务性的公司,在政府方面通过大数据的融合技术、生物识别的手段,实现了政府服务效率的提升。当然讯飞在汽车或者医疗方面也开展了一些研究性的工作。
讯飞从2010年左右开始做语音云平台,从那时候开始真正拥有互联网上用户的大数据,这个数据资源现在是什么程度呢?我们在用户方面大概8.9亿的用户,3.6亿的输入法用户,在其它领域还拥有非常多的非互联网数据。这个包括和运营商的合作,比如中国移动、比如在智能家居、智能汽车的数据,在智慧城市和政府方面的合作数据,这些都是非常多元的,非常有意思的数据。这些数据通过生物识别的手段,你的声纹、人脸的识别可以做到数据非常真实可靠。
当然这离不开内外公开的服务,也就是讯飞语音云,达到日30亿次的服务量,我们2010年开始做的,做的比较早,上面的用户也是最大的。最关键的是这里面聚集了非常多的开发者合作伙伴,像高德地图都有一些实际的应用。
有了数据还得有处理工具,最典型就是大数据的分析和服务平台,我们这个平台内部叫Odeon平台,奏乐堂。这样一个平台目前规模不大不小,应该说在国内算是比较中等的平台,400台机器,日数据的增量大概100TB左右。我们在这个平台上做了非常多的工作,比如现在Hadoop的工作平台下,尤其非商用的环境下,数据的隔离和权限的应用是没有人做的,我们在这方面做的非常多的工作,为了平台数据的隐私保护和安全的保护。当然我们现在也没有看到哪个平台能把基于人工智能的数据处理能力整合到平台内部来,这方面我们在做一些尝试和实践工作,因为这里面最主要需要处理的数据就是语音数据,这个语音数据怎么样转化成可处理结构化的数据,转化为真正能使用的一些数据的价值。我们在这里对于机器的GPU的整合以及进一步的深度学习的算法模型整合,做了很多的尝试工作。
最后一块是我们这个平台,像刚才讲的智慧城市以及教育方面做了大量私有化部署,这个私有化部署是为了我们的客户提供一种私有化的数据安全保证、数据隐私保证的服务。我们的团队现在还不算非常大的团队,讯飞六千多人,做大数据的团队一百多人,但讯飞是一个从高校里走出来的企业,所以和非常多的高校有很好的合作关系,像清华、科大,我们通过高校对前沿的大数据进行做了很多的跟踪和相应的实践,形成比较良好的产学研的循环和提升的关系。
下面简单介绍一下讯飞在三个领域的一些具体的实践工作,希望和大家能产生一些共鸣或者共同的研究和交流。
1、精准营销,是大数据最早最成熟的应用领域。
2、个性化学习。
3、智慧城市里做的我们对智慧城市的一些理解和实践工作。
精准营销方面,大家都知道这是一个现在成熟的模式,最重要的一点是你要有自己用户的画像平台,也就是一个数据的DMP平台,这当然可以整合外部的数据也可以单纯使用内部的数据,既可以为自己精准营销服务,也可以为外部其它企业的数据需求服务。这样一个服务平台过程中,最重要要发现它的核心价值在于对你用户的分析、挖掘以及获取和引导的作用,它的导流作用最后是直接变现还是对用户的广告点击上,最终我们想做这件事,目的是为了产生真正的价值。讯飞因为在这个领域起步其实是比较晚的,我刚才讲2010年才开始做这个工作,这个工作里战略是非常清晰的,一定让用户的数据产生实际的价值,而不是单纯的积累起来,或者单纯的对外讲我们有很多的数据但它不能产生价值。
怎么样产生价值呢?现在用户8.9亿,累计用户12亿,产生了1700类的标签。这样一个平台不仅仅对内部的讯飞广告平台提供服务,也为第三方的精准营销提供数据交换和数据查询服务。
这里面我们用了一些比较有意思的人工智能的技术,做了很多标签精细化的工作。在自然语言理解方面,因为我们通过输入法、开放云平台服务,产生了大量短文本的数据,这种短文本数据的挖掘中,使用了一些人工智能的技术产生了一种非常精细化的标签分类。比如说对于购车和有车的人群,这样的分析就非常有趣。比如说基于声纹做了男女性别的划分、年龄的划分,这样是基于用户传统的行为数据或者日志数据的话是没有办法得到精准结论的。
当然在变现方面也做了一些工作,比如金融领域对用户的1700类标签进行梳理,之后进行广告投放。我们已经把我们自己所有的数据转化为实际的生产力,实际的商业价值。还有一块是游戏领域,我们也做了很多的工作,尤其是用户的年龄分别或者性别的判断,对这个游戏定图的效果,会产生非常大的效果。
第二块工作,是我们在讯飞教育领域的大数据工作。教育领域有Mooc或者智慧校园、智慧班级,我们更多的为学校、教育主管部门一直对学生的成长过程进行数据的采集和分析。非常重要的点,一是怎么样用人工智能的手段搜集到真正的教育过程数据,二是怎么样把过程数据转化为学生学习过程中的进步和优势。我们可以看到,我们在这里讲到一个全学科的智能阅卷。我们都讲学生的教育数据往往是隐藏在他的作业、试卷、一系列的学习过程中,那这个学习过程往往是非电子化的,没办法采集的。MooC现在的手段把所有学习过程全部上网,上网就能采集到数据。但中国的经济发展水平不可能完全做到无纸化,怎么样提供这些纸质材料的数据?我们提供了一系列的解决方案,所有试卷的高速扫描以及电子化的工作。扫描谁都会做,人工智能已经解决这个问题,不需要让人判试卷,不仅仅可以阅卷答题卡上的答案,可以让机器判作文、主观题、阅读题,这样一个过程做了以后,我们在英语的考试、国家教育中心的一些合作过程中,已经充分验证了机器阅卷的能力已经超过了传统意义上的人类专家。这样一个阅卷过程可以把整个学习过程中的过程采集变成现实,全量采集。
数据已经有了,我们用人工智能手段解决了非结构化学习过程的采集,下一步是解决非结构化的过程数据变成你的学习指导,变成你的个性化的家庭教师的过程。假设一位同学小明在一场考试中做出他的成绩,成绩的情况以及薄弱点,都经过简单的分析得到了结论。下一步是我们发现这些结论需要去补,怎么补?我们可以推荐他相应的课程学习的课件以及老师讲解的题目,以及所有可以做的练习题,按照难易程度,按照知识点的覆盖面精准推送给他,这个推送听起来和我们做广告推送没什么区别,但机器学习是非常痛苦的,因为广告每秒钟可以学习一千次,但一个学校一个学期可能只能学习几千次。
最后我们讲一下我们在智慧城市或者政府服务领域做的一些工作。政府服务有一个非常大的问题,以前的信息化服务政府是怎么做的,一套一套的信息化系统,数据孤岛建起来。但现在发现问题了,这些数据如何打通,我们看到很多方案,两两之间的解决不是我们做IT的人想要看见的,一定是新型的有中心的网络,全连接的网络,这样的网络肯定离不开政府的数据中心。这之后还有一个软的数据标准,数据共享的标准,数据交换的标准以及相应的政策支持,这些工作都需要有大量的投入,大量的精力、人力,而政府是没办法做这些事情的,需要有很多的企业服务这样的工作,为政府建立政务数据流通和交换的生态系统。
有了这样一个共享交换的平台之后可以做到什么样的程度?讯飞在安徽省内做了很多尝试和实践,结论大概是我们可以把原来的典型的政府服务的办事窗口从10个减少到2个,并且工作数量不受任何的影响,而且效率可以大量的提升,因为原来公文流转的速度变成在平台上的直接交换。打通之后可以实现任何的材料不需要上传,不需要你去证明我妈是我妈,所有的办理都可以在秒级的时间授理,一站式办理。
还有非常重要的是市场环境监管,我们说如果你把数据打通了,原来分散在公安局、税务局、工商局的各种企业数据可以进行全面的融合和共享,这个共享之后可以像对互联网的用户画像一样做一个企业的画像。这个企业画像我们可以对企业之间的社交关系,也就是投融资的关系。对企业整体的标签化分析,对于企业重点的奖惩信用方面的分析,都可以做出相应的数据化的分析,这个分析的结论最后可以用在整个政府的监管过程中。这个监管过程中不仅仅可以做到实时的监督,还可以联合执法、惩戒进行管理,这样可以使得市场环境变得更加优良,大家可以享受到更加好的政府服务。
最后一块是我们和安徽省内的运营商进行的合作,也就是说怎么样去把城市里面的地理信息数据变成城市交通的疏导和管理工具。这样一个数据,通过任意一家运营商,这个数据它的精确度很差,我们需要用很多的手段把数据的精确度,变成非常精细化的轨迹分析数据,这样的数据经过分析之后我们可以得到什么样的东西。我们可以得到一个城市的交通情况,我们不需要任何在线的浮动车,不需要任何的探头就可以得到实时的交通情况。
还可以做更加精细化的工作,因为我们是分析每一部收集,在匿名化条件下的移动轨迹,如果任意选择一个区域或者一个路口,我说我想看一下这个路口一个小时之内有多少个移动设备经过了这个路口,以什么样的速度,走哪里轨迹。每一个白点代表着一个移动轨迹的移动,整个移动轨迹全部整合起来以后,可以看到导致路口拥堵的车辆来源于哪里,到了哪里去,他们的聚集、分析以及进一步的疏导,可以基于这样进一步的统计工作进一步的展开。
我们不仅仅可以看到单个的轨迹还可以看到人群的聚集,这个人群的聚集可以是一个热点区域里他们有没有发现拥堵的情况,有没有发生踩踏事故的风险,这个风险一般可以提前20~40分钟进行预警,这样预警就可以避免很多公共安全事故的发生。
还有是城市的交通和规划的管理,如果把一个城市按照行政区划进行精准划分之后进行OD分析,这个OD分析可以判断一个区域是商业区、居住区还是工业区,可以进行精准的定位,这个精准定位对城市规划也是非常有价值的。
因为讲了很多的实践工作,我们做了很多工作都是为了实际应用,为了产生价值。最后简单介绍一下我们讯飞在2010年开始做大数据,到现在为止这个过程里,我们大概对整个大数据产业有一个样的认识和定位,我希望把这个定位分为四个层次,一是做技术,大数据技术方面现在产生了什么样的需求。二是大数据生态体系发生什么样的变化。三是大数据所面临的市场在发生什么样的变化。四是大数据最终对最终用户(无论To C还是To B)的服务形态应该是什么样的。
第一是做技术,大数据技术方面现在产生了什么样的需求。我们讲大数据的技术,这里不提大数据的平台技术,更多的是讲大数据的分析和挖掘技术。大数据的分析和挖掘最基本的统计查询我们已经做的非常好非常成熟了,再往上做理解和搜索,做未来的预测,这个工作现在越来越难,越来越难以用最简单的统计分析的方法或者统计学习的方法来解决了,我们说用机器学习的方法,用深度学习可以解决非常多识别的问题。不仅仅可以识别他是好是坏,还可以直接做端到端的学习,从语音转化为文字,你可以做更多的理解和搜索的工作,以图搜图,以及以自然语言来理解他到底表达什么样的含义、情绪。甚至深度的预测,预测未来交通怎么样,预测未来天气怎么样,这样的过程是大数据和人工智能发生非常紧密的联系,我们经常遇到政府的需求或者客户需求就是说我需要解决图片上多媒体上一些具体的分类、识别的知识提取的工作,找到我们大数据,我们讲这里面会用人工智能的方式解决它。
第二个层面,我们讲生态体系。整个产业生态现在在发生什么样的变化,刚才钱博士提到了整个产业生态现在是越来越分工明确,越来越发生更多的交换和跨界,我们讲这个层次上现在更多的工作,一是数据的收集和采集,二是谁能提供好的数据分析和处理工具。三是谁能运营这些数据进行交换、加工,这三个层次都是不产生价值的,它是供给大数据能力的。最后一个,谁面向最终的客户,谁需要大数据的分析产生的知识,谁需要基于这些知识产生价值,最终是各种的应用以及数据交易,最终是需求侧来产生价值的。
这样一个过程里现在很多的企业都在找自己的定位,讯飞也在找这样的定位,你到底能提供数据,还是提供技术,还是交易的策略或者运营的方式,最终去做应用。现在从顶到底做烟筒的已经不受欢迎的,更重要的是我们在整个生态体系里找到自己的定位。
第三,传统产业大数据市场尚待深挖。这里引用阿里的图,但我们还要看到这个市场的左下角,还有一块非常明显的蓝海,虽然是蓝海但也充满了危害。你的数据有没有得到真正的采集,这个问题首先在这个市场里就是最重要的一个问题,我们看到它把交易放在这里。还有是应用水平到底在什么程度,这是技术上的机遇但也是风险,怎么样把大数据技术放到合适的市场里产生合适的价值,这一点是希望和大家探讨的。
最后是未来的服务形态。无论大数据、人工智能还是云计算,都是整个IT服务业的一个技术组成的部分。服务,一定最终是说有一个最终的服务形态,这样的服务形态应该是什么样的。刚才提了大数据和人工智能有紧密的联系,互相之间智能化紧密的提高,大数据和云计算也有紧密的联系,最早大数据是云计算发展而来的,分布式计算系统产生了海量数据。云计算和人工智能,讯飞2010年开始做人工智能的云平台,就是为了在数据处理,计算复杂度特别高的环境下,怎么样能提供一个精准的,提供一个真正智能化的人工智能的服务,我们只能说把计算挪到云端,用云端的计算结果来服务客户,服务最终用户。这样一个过程里可以看到三者之间发生了一个非常紧密的联系,你越来越没办法区分人工智能、云计算或者大数据之间,谁是人工智能,谁是大数据,谁是云计算,他们都只是新一代的信息技术而已,这些信息技术最终的目的是为了提供更好的服务。那么这样的一种服务应该是什么样的,它就应该是从海量的数据中能自我的优化,这是大数据的工作,也是人工智能的工作。
它能在日常生活中触手可及,这是能获得数据的手段,这也是能云服务的一种机制,最后它一定是一种智能化的信息服务。
刚才说大数据是从一个高峰到一个低峰又到一个高峰,已经没办法充分理解它了。但我还是想用这句话跟大家共勉,大数据时代不可不为,大有可为,谢谢大家。