2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。
2016中国大数据技术大会首日全体会议中,星环科技董事长&CTO孙元浩带来了名为《大数据技术的最新进展和潜在应用》的主题演讲。大数据技术的软件栈分为分析管理工具、领域级引擎、通用计算引擎、资源管理框架以及分布式存储引擎几项。而Hadoop的发展目前已经有了几大进展:分布式计算已逐渐成为主流计算方式;交互式分析技术日益成熟;数据分析算法逐渐丰富,工具普及化;融合事件驱动和批处理引擎。后Hadoop/Spark时代,新技术在数据量,类型,速度以及价值四个维度上都将加速创新。最后孙元浩表示:2016年是Hadoop技术大规模应用的战略转折点。
非常高兴能参加今年的BDTC大会,我是从2011年开始参加这个会的,2012年的BDTC大会到今天已经第四届了,非常高兴能够再次站到这个讲台上面,我们过去一直致力于Hadoop的研发,也在Hadoop上研发一些核心的技术产品,我们看到技术演进非常快,本人09年开始就做Hadoop的研发工作,我们看到这个市场技术的变迁是非常大的,这里我们做一个简单的回顾。
Hadoop早期是参考了03年Google的论文,06年并入雅虎,雅虎成立一个团队做Hadoop的研发,随后把Hadoop作为互联网的仓库做分析,08年集群已经真正开始在生产系统中使用了,所以我们说Hadoop有十年历史其实是从06年开始算的,从那时真正开始投入在Hadoop的研发。到08年底的时候大家发现Hadoop的技术在互联网公司应用成熟了,开始有一些商业公司成立,致力于把Hadoop商业化,把它应用到除了互联网公司以外的其他行业中去,当时定位在生物信息,后来是在政府、金融这些行业当中。到11年的时候雅虎看到了这个市场的潜力,Hadoop团队出来成立了一个公司,是7、8月份成立的,随后也发布了Hadoop的发行板产品,把Hadoop商业化,仍然是狭义上的Hadoop,包含分布式系统、包含计算引擎。几乎在同时,09年、10年的时候,虽然Hadoop应用当中做P处理比较成功,但是仍然有一些新的公司在开发一些新的技术,希望能够做机器学习,希望能够做高效的交互式分析的引擎,那时候spark出现了,随后大家发现它做机器学习非常高效,也用来做机器分析,到13年时候大家发现这个引擎具备取代m的潜力,14年的时候认为基本上可以取代spark,今天这个引擎更多的出现,经过这么多年,好像真正成功的是做机器学习、流处理。
技术引擎每过几年都会发生巨大的变化,星环是13年成立的,借助Hadoop当时开发一个Hadoop的引擎,当时我认为在Hadoop上开发一个App引擎是错误的,所以我们基于Spark做一个分析型的数据库,同时过去三年当中不停的在演变,在演变当中开发机器学习的产品、流处理的产品和信息检索的产品。
整个大数据软件栈分成5层,最下面是存储引擎层,上面是资源管理框架层,其实这三个是演变关系,是替代关系,我认为未来基于容器化的资源类的框架会逐渐取代其他,通用计算引擎这块我们看到mapreduce慢慢退出了Spark还有一定的地位,在深度学习中有近20种深度学习的框架,这里列了一个文档比较好的,大家学起来比较容易的通用的深度学习框架,上面有很多算法我们认为它会具有生命力,当然其他的引擎同样具有生命力,在领域级引擎方面分为七大类,这七大类基本上覆盖了所有的领域,这七个领域如果都做的成功,大数据应用会得到极大的深化。
第一个也是现在所有人投入的,用SQL P处理仓库,tencoficw已经被淘汰掉了。另外交互式分析引擎,做内存的列式存储尽量提升交互式分析的性能,现在发现光用原来的标准的P处理引擎不适合做非常高速的分析,可能需要一个新的技术,这也是为什么我们把它独立出来的选。
第三是做TP的,这里面有机器学习、深度学习、图分析,这七个是具备广泛的适用性的,但是在某个应用领域当中。再往上是三大类工具,主要是机器学习的工具,这些工具是非常广泛的应用,构成了整个大数据的软件栈,这个软件栈跟三年前相比已经出现了非常大的不同,底层下面三层有些演变也有一些革命性变化,趋势上会慢慢趋于稳定,上面两层在蓬勃发展当中仍然有新的技术出现。
进展到现在已经看到有四个定论:
- 第一个定论我们认为分布式计算已经成为主流的计算方式了;现在我们用Hadoop来做P处理运行TBS、DS,它的性能在TB级上用29台机器也能做到在三四十个小时内完成的。在单秒超过4个TB仍然会有一些问题,但是基于Hadoop的引擎没有局限性,能停留在TB级别,说明Hadoop技术已经可以用来做大规模P处理来做数据库了,当然是很小的部分。这只是一个标志点,我们认为分布计算已经被认为是比传统技术更高效的,性价比更高的方案。
- 第二个进展我们发现交互式分析技术日益成熟了,我们过去希望把P处理改造成为交互式分析的方式,当时大家走了弯路,大家模仿SPB数据库开发一个搜索引擎,这种方式虽然数据在内容当中。我们发现文件系统上,仍然需要存列式存储或者交互式分析。这也是我们最近这两年总结的经验教训,发现过去希望是通过一个P处理引擎做Olib分析但是没有成功,之于这些我们发现它的性能仍然有数代的提升,大家可以看到上面是做数据存在HDFS上不建CUBE的,这个访问结果比较少,但是要求速度比较快。如果把CUBE建好以后,发现这个性能提升最低有50倍最高有500倍的提升,如果跟在HTC上相比有几十倍的提升,说明借助CUBE是能显著提高性能的,建造CUBE的成本较高,显著的是固定报表稍微自助分析的。我们认为在交互式分析这一块,现在攻的TPC-H,我们认为这个需要变化才能支持交互式分析的能力,当然现在大部分的厂商还在跑TPC-S我们希望把它引到交互式分析上来。
- 第三个进展我们认为机器学习的算法,参加每一届的BDTC大会很有感触,每年主题不一样,经过三年发展大家发现数据分析算法丰富了,算法也够用,但是我们发现一个问题,在去年的时候我印象很深刻,去年讨论机器学习的时候大家谈论的是算法很多,大家拼的是算法数量,到今年大家发现两个问题去年也讨论但是没有解决的,一个问题是特征工程,特征工程需要大量的选择数据的指标来喂给算法做建模,这个工具是非常巨大的,没有自动化,所有工作人员大量的花在数据选择上面。这是第一个问题,现在看起来好像可以用深度学习的方法来做,帮你自动选择这个特征。
第二个问过去一直没解决的是算法选择的问题,今年有很多公司包括很多美国的创业公司在开发一些工具来提供自动模型选择这样的功能,它能够自动帮你跑各种模型,描述你的问题是个分类问题还是一个聚类问题还是哪种问题,他会帮你把同一类算法全跑一遍,比较哪种算法的准确度和效率,自动选择一个算法或者组合一个新的算法这也是比较棘手的问题,现在工具出现了,帮你自动化选择模型。
第三个问题是如果分析出来一个结果,做了预测,预测的目的是我能不能改进,能不能反过来影响,找到哪些因素是影响结果的主要因素,这又是更深入的问题,这个问题现在仍然没有很好的解决方法。今天我们看到进展是数据分析的算法已经很丰富了,今年工具也很丰富了,包括星环也提供两种工具,二元的无缝集成,可以做数据挖掘和机器学习,也可以跟midas做无缝对接,所有做的是让机器学习方法普及化,让更多人使用,降低它的使用门槛,这一块基本上成为现实,当然这里面仍然有些问题没有解决,但是深度学习的工具已经开始得到逐渐使用,今年客户当中接近20%的客户在使用机器学习的产品。
- 第四个进展我认为是在实时处理方面有蛮大的进展,过去流处理技术大概分成两大流派,最早是世界驱动的模型,是来一个事件就处理一个,好处是延时比较低但是强迫开发人员按照事件驱动的方式编程,这样开发难度是非常高的,要在上面写一个复杂的统计或者说在上面实现一个机器学习的算法要用事件驱动的方式实现还是有点困难的,所以SQL是换了一个方式,好处是编程模型变成P处理方式比较简单了,缺点是需要等一段时间累计一段数据再处理,延时比较长,SQL延时没有低于300毫秒过,但是对于应用来讲需求最难的是用户希望在非常短的延时之内处理非常复杂的模型,因为应用是越来越复杂的,延时要求也是越来越低的。这样很有必要开发一个融合的引擎,底层可能是事件驱动的引擎对外提供的接口、编程模式完全是P处理模式,能够支持C口重组过程是机器学习,这种引擎才真正能够在应用当中发挥作用,这是我们过去用一年半的时间发现这个是可能解决的,这是基于早期版本改造的,重构了它的引擎,来一个事件,以前的mapreduce是实现,我们发现它是被重构成,以前mapreduce是分成多个streams,现在来一个直接到下一个streams去了,延时比较低,这是比较大的重构。同时对外实现的接口是完整的P处理的编程模型,完全支持标准接口重组过程。这种方式我可以用来实现在低延时,在非常严苛的生长环境当中对传感器数据进行非常复杂的分析,在上面运行预测性的模型,比如用流处理预测风力发电机齿轮叶片的故障情况,是实时采集数据的,在流上做预测的。也可以用在金融行业当中用来做反欺诈、风控。交易所的模型非常复杂,它的BS模型是要在流上求解一个方程,模型是很复杂的,但是要求要把当前一秒的交易融入到从开盘到现在的整个交易的池当中来算这个模型,而且要在一秒钟之内完成,这个要求非常高,所以就需要融合引擎,这是星环比较大的进展,我们已经实现了这样一个融合引擎,也是比较领先于国外的产品和技术,有一年以上了。
总结一下这四个进展我们认为如果是看Hadoop、spark后面的技术发展趋势我们发现,又回到了大数据的四个V上面。我们发现SQLHadoop技术越来越成熟越来越完整,它能够超越传统的水准。这样我们认为在未来两三年当中传统的数据仓库领域会被新技术取代或者颠覆掉,这个工作我们已经在做,而且我们也走在了世界的前面。
第二块我认为发展趋势是在数据类型上面,过去大家在讨论中用非计划数据处理,但是仍然用Hadoop数据存储这些非计划处理,现在随着深入学习框架的出现,我们认为这个应用又带来新一波的高潮,深度学习可以处理视频、图象图像、语音、人机交互、自然语言处理,这些是现在正在如火如荼的发展当中,但是我们认为在这个领域我们国家并没有走在原创型的前列,我们仍然在学习美国人的技术,有两方面的原因,一方面我认为是国外的需求在驱动,让他们在开发引擎。第二是像GOOGLE这样的公司可以动用几十万台机器训练一个模型,它的资源投入是非常巨大的,这也是它能够发展出这样技术的重要原因。随着GPU和SPV的硬件技术,做深度学习、视频分析、图象处理可以充分利用混合架构的或者GPU的计算能力,这一块也是现在一个引进的热点。
第三块方向我认为在流数据方面刚才讲到了,过去流处理技术像steam基本上已经被抛弃了,它还不够成熟,未来肯定会成熟起来,但是方向肯定是对的,大家希望建造融合事件推动和P处理的引擎做实时处理。
第四个方向我认为从机器学习、数据挖掘这一块,这个方向会是借助有成熟的算法、成熟的工具,大家发展的目标是把算法工具能够普及化,能够让更多人使用,发展大数据的价值,会有这样的方向,这个方向会是商业公司做,因为定制化程度会高一点。开源的会少一点。
回过头来看大数据市场,硅谷著名的VC认为传统数据平台会在未来十年之内全部被替换成Hadoop,当然这是它的理想。我们认为有1/3以上的部分会全部换成Hadoop,原来数据的分析软件,传统的软件都会逐渐嵌入Hadoop上面来,他们会进行重构和迁移。整个生态系统日益繁荣,我们划成倒三角形,底下是大数据平台,上面是分析传播、模型可视化、工具等等,再上面是大数据应用,再上面是专业服务和定制开发,我们看到这个市场变的比以往更繁荣,我们也看到技术大会扩展到三天这也是一个标志,我的观点认为2016年是Hadoop技术进行企业进行深化应用的转折点,因为前两年大家都谈这个技术,这个技术还没有成熟,大家都在试用。今年我们发现很多行业的重要客户在应用Hadoop到它的关键系统当中去,像银行客户已经在使用我们平台构造它的完整的数据仓库,已经不再用关联数据库,有客户已经用我们平台构造全行的风险运营系统,这标志着Hadoop已经深入到行业当中已经开始成为某些行业的刚需,我认为这是它的转折点。这张图是预测,它认为未来五年大数据市场将有900亿的规模,我们看到2016年他们也认为增长会加速,但是未来5年市场仍然会保持30%的增速,所以整体的市场情况,仍然是需求非常旺盛的在产生,技术本身也在演变当中。所以对所有客户来讲,大家希望看到统一的标准接口这也是一个需求,也是所有Hadoop厂商的一个诉求是我们能够提供标准的通用化的接口,但是底层技术可能在不同的演变当中,每个层次都有不同的变化,对外提供的接口比如提供在一些通用化的工具上面。
同时技术本身也在飞速发展当中,对技术开发人员来讲仍然有新的技术出现,仍然需要大家创造新的东西解决我们碰到的问题,我们也高性能看到有很多同行活跃在中国各个行业当中在深度开展大数据的应用。