2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。
普元信息CTO焦烈焱
全体大会上,普元信息CTO焦烈焱在《数字化转型中的大数据治理架构》主题演讲中通过红领、苏州工业团区政务信息共享平台两大案例分享了大数据治理在企业数字化转型中所起的重要作用。他表示,目前企业组织架构也正发生着变化,如CDO办公室成为数字化企业的标准岗位、数字化企业的数据中心向大数据服务转型、大数据平台由功能化平台向服务化平台转型,而大数据治理是大数据平台服务化的关键。
大数据治理可帮助企业提升管理、提供全新的业务创新能力,而这需要智能化自动化的技术平台做支撑。接着他分享了大数据治理的十二个技术原则,包括统一管理企业资产、自动获取数据信息、识别与管理业务语义、关联业务语义与技术、从需求开始控制数据质量、在集成点检查数据质量、持续积累检核规则、自动化质量评分、管理核心数据定义、为数据标准添加技术属性、随业务持续更新数据标准、数据管理能力服务化。
以下为演讲实录:
焦烈焱:尊敬的各位来宾,大家下午好,我今天讲的主要是大数据治理,我们怎么把大数据资产使用好,能够更好的发挥作用、发挥价值。大家知道现在是数字化的时代,在这个数字化时代,我们的数据来源比以前更广,为什么?我们会看到传统企业政府的IT系统更多是面向内部的使用,产生了这样一些信息,现在已经面向外部使用了,更多行为的信息、社交的信息会变成我的数据。另一方面我们还有很多非结构化的数据,如媒体、视频数据。第四方面包括物联网传感器这样的信息,这样的信息远比以前更多、更广,更加难以管理,我们有这样的信息之后,怎么样把信息管理好,让这些数据能更发挥作用,发挥价值,这是我今天跟大家分享的主要内容。
数字化时代大数据向服务化发展
我们先看一下,在企业、政府里,他们是如何发挥大数据价值的,用了哪些手段。
红领集团,红领集团是做工业4.0比较领先的企业,是以生产男式西装为主的企业,图1是红领集团生产的模式。如果在手机APP上下单,测量师会到你家里拿着布料做定式的测量,测量之后进到版型库,在库里做自动的设计,设计之后做自动排查然后进行生产使用,到红领参观会发现一个很有意思的事情,每个工人在他生产的时候都会从布料里拿一张卡到屏幕上刷一下,上面显示你的订单编号是多少,这套工序要干什么事情。对于红领集团来说所有的订单全是个性化的订单,所有生产都是个性化生产,个性化生产里面它用我们的数据发挥什么样的作用呢,怎么用数据呢?整个的生产流程都是一个数据驱动的方式,在整个男装生产中有两个非常关键的环境,实际上是红领集团用大数据解决的。
图1 红领集团生产的模式
第一个关键点是西装设计,大家知道西装设计就是原来讲的裁缝,一个裁缝根据你身体的样子裁成一个版型,一个非常经验的裁缝只要看我们一眼就大概知道应该裁成什么样子,西装设计非常重要,西装的领子里面衬衣露不到一指,裤子盖脚面一指等等,都有要求。红领集团做的时候发现不可能有这么多版型师,他把以前做的一亿多套数据灌到数据库里,通过这个数据保证再来新的订单可以用机器的方式,可以用大数据的方式,可以给你生成这样一个版型,你到红领车间里首先看到的是是版型师,现在还有20几个版型师专门针对特别高、特别胖的人做版型设计,这些是机器根本做不出来。此外,在版型里还会抽查现有设计的版型是否合理。
第二个关键点是自动排查,生产工序是什么样的,什么地方钉扣子,什么地方挖扣眼,这些都是在自动排查里面进行的,排查也是数据驱动的,会看到在红领生产工艺里面很少有人工审批,各个环节都是用数据驱动的方式在做。
通过这样一个模式,基本上把整个工业的生产线,工业的传感器、工业的车床、用于排查的MES系统、ERP系统、订单系统、物流系统等等通过云和大数据的模式进行整合。在这里面,生产的时候有排查,排查是否有工艺流程、工艺的应用效率是什么样的,都是通过数据驱动的方式。
你会发现它的数据已经不仅仅像传统一样用在决策分析或某一个地方而是整个生产部门都有这样的数据,这个数据怎么来的,怎么管好,怎么让数据发挥价值,实际上就是红领集团做数据管理所带来的作用。我今天分析的更多是在工具管理上工程实践是什么样的。
第二苏州工业园区,最早是我国跟新加坡政府一起做的工业园区,现在自己在独立运营,苏州工业园区作为政府机构,很早实现了机器物理的大集中,机器机械化的设施已经集中起来了,集中起来之后又怎么样,现在政府都会提到我们要做数据的共享,第一步大家想了,我的物理服务器应该要集中,不能每个人自建机房、自建设服务器,光做这个就能数据共享吗?显然不是,苏州工业园要做三库、三通、九枢纽。三库即法人库、企业信息库、个人库、人口库,这个东西一般政府都在做,但是9枢纽和三通就是他们自己在做的规划理想的情况。三通无非是跟政府打交道的业务、居民打交道的业务和跟企业打交道的业务,这个应该考虑来源等问题,所有的应用都在三通框架下做。九枢纽把除了打三库之外的信息做了分割聚类,比如到工商注册一个公司,可能环保对我有要求,工商对我有要求,税务有要求,这些信息从哪里来,可能从九枢纽上面的各种应用来,这里面就是发挥数据的功效。
我们的数据要想发挥价值,实际上数据是非常需要管理的,在数据管理的情况下,组织结构也有变化,很多企业有了CDO,它不仅仅是一个职位,是部门职能的改变,我看到有些企业里面有数据仓库部门、数据管理部门。我看到有些企业已经把数据管理部名字改掉了,叫数据服务部,相当于能把数据能够对外提供的服务。传统以前做数仓的时候,自己做是自己用的,是自己做一些分析报表的,很多都是这样的情况,现在不一样了,拿过来这样一些数据之后,除了自己做,更多是要给别人用,像苏州工业园区讲的,九枢纽是给委办局用的,怎么把这些数据管理好,用服务的方式提供出来是很重要的课题。我自己在前十年一直做SOA,数据治理是很自然的,用企业IP治理的方法把数据管理起来,怎么管理起来?把数据当做一个服务提供出来的时候把数据管理起来,这可能也是数据治理的核心。
作为数据管理部门的一个管理手段,我经常会举一个例子,数据治理这个事情是比较小众的东西,关注的人不是特别的多,但是一旦把这个事情做大的时候,数据治理的地方又势必不可避免,我经常举一个例子,数据治理像踢一场足球赛一样,足球赛更关注运动员是什么样子的,我们做数据的都是为运动员服务的,把球踢进去。其实大家忘了还有一个裁判,数据治理某种角度讲就像裁判,一个足球场不可能没有裁判,怎么提供这样的工具手段让他把裁判的工作做好,这就是数据治理要解决的,当然我们在数据治理的时候解决问题的时候不是简单的用裁判的思路,不是简单的给你定好规格,一场球踢的好不好与裁判有很大关系,为了在进攻鼓励的时候即使犯规也不会催你,裁判怎么让球变的流畅,用这个进行数据治理,怎么让数据变的更好,让业务发挥更好的作用。
我记得过去经常讲数据治理,看书或者看读物的时候发现数据治理讲的是什么?一般都讲的流程是什么,政策是什么,这样一些东西,八大领域,我们会讲要建立数据管理委员会,数据管理委员会在银行应该行长挂帅做这件事情,一方面讲的是对的,行长很重要,要有高层协调。另一方面如果只关注这个地方其实是不对的,我刚才讲裁判,裁判的工具是红黄牌,是哨子是旗,现在裁判要有这样的工具,现在裁判有鹰眼有录像的回放,用这样的手段把裁判工作做好。对于数据治理工作也是一样的,我其实是要帮助业务把数据用好。大家一想到流程、规章制度,大家会想到什么?很多人想到他又给我上套了,又让我额外做了很多工作,如果我们还按这个方式做数据治理是不可以。把大数据时代的数据治理做好的,因为只讲规章只讲流程制度传统情况下还可以,但是现在每个人把数据价值发挥出来的时候,发挥每个人创新的时候必须提供更好的工具手段做这个事情,所以我要把数据当作服务做,把服务暴露出来,治理是把我的服务做的更好,治理本身也是一个服务。把数据治理当做一个服务给别人提供出来。提供什么呢,比如可以把数据地图提供出来,让前端工作人员更容易知道我提供什么样的数据。
大数据治理架构与关键技术分析
接下来,我会讲在实践中我们做了哪些工作。现在我们在做数据治理的时候为什么大家很反感?管理维度讲是缺乏服务化的;业务维度他会觉得数据难使用、难查找,用户说到底哪些数据能够来用,创新到底用哪些东西不清楚,自己的工具链条也很复杂,比如经常说出了一个业务之后我的报表发生了错误,报表数据到底从哪儿来?报表本身的数据可能是倒几次才形式的,最后的源头在哪儿?大家经常说要倒数据的存储过程,查了几个之后终于找到了,原来是这个数据不太对,形成了这样一些问题,本身这样一些工具链就让数据业务的开发、创新是非常困难的一件事情,我怎么能把这样的事情做好。
所以这里我们讲的大数据治理更多希望你的管理水平提升了,业务支撑好,要有技术手段落地,我们作为一个裁判不能只有哨子只有旗,我们还需要有鹰眼需要有回放,需要自动能看到到底哪些球员越位了。传统的数据管理部门,正需要使用这样一些工具手段能够把数据管理的工作做好,而不是说在做数据管理工作时,别人认为给我的业务人员、使用人员、开发人员、运维人员增加了很多负担,而是帮他们把这件事情干好,所以干好其实是需要用技术手段做好,我一直强调要用技术手段把数据治理做好,数据治理本身也是一个服务化的东西,要提供给它来用。大家知道以前数据治理,有很重要的系统叫原数据系统,一个企业里用原数据、数据标准的系统有几个人?传统情况下一个企业不超过5个人用,现在越来越多的功能。这些功能干什么?我们希望你的原数据系统、数据标准系统能不能变成一个服务,这个服务嵌入到每个人的工具里,一旦有数据质量问题,就能发现数据质量问题来源在哪里,一旦发现问题就自动查询有哪些数据,根据这些方式我们总结我需要这样一个平台帮我把数据治理做好,我们后面有大数据的平台有很多这样的数据,前端有很多的业务应用,但大家要知道我的业务应用和我的数据之间是有一定阻抗的,两者之间是不完全匹配的,怎么让他们匹配起来?按照解偶性,中间会有解偶让管理更简单、取得数据更方便。
这里面怎么用技术手段把这个做的更方便,我们总结了12个原则,即* 统一管理企业资产、自动获取数据信息、识别与管理业务语义、关联业务语义与技术、从需求开始控制数据质量、在集成点检查数据质量、持续积累检核规则、自动化质量评分、管理核心数据定义、为数据标准添加技术属性、随业务持续更新数据标准、数据管理能力服务化*。今天因为时间关系,我主要讲前面4个我们的时间和做法:
数据资产是需要可视化的,因为我们知道数据资产现在特别多,我有各种各样来源的数据,我的数据有买的、自动产生的、从网络爬过来的,以前生产数据是不要的,现在红领集团传感器的生产数据也拿出来了,数据量会非常大,这些数据量之间互相传递,实际上是一个知识的传递,也就是说我的一个应用想用你的数据到底是什么样子,实际上是两个知识工作者之间的传递,知识工作者之间要用可视化的方式做传递,我要知道别人有哪样的知识需要可视化,可视化有很多手段,比如知识工作者喜欢的可视化手段是什么样的?树的方式、思维脑图的方式、流程图的方式,所以我形成数据资产的时候会形成数据地图,我的数据地图会用思维脑图、方框图、流程图等等,比如ETL工程师看到的是流程图,看到某个数据导到某张表的某张字段,如果我是业务分析人员,我要从企业流程角度看,企业有八大流程生产流程,订单流程每个流程涉及到的数据是什么样,产生的数据是什么样,做优化从那里拿数据,从企业管理者角度看,是树状的,每个组织结构理由哪些数据,这其实是可视化的数据资产,如果做的好可视化的数据资产是嵌到各个数据应用系统里的。
这些资产要自动采集获得的,技术复杂吗?不复杂,无非是词法语法分析的,Hadoop、Spark的HDFS等等,都需要把数据采集出来形成数据资产或者地图,手工维护的时候就变成很多数据应用开发部门和数据ETL集成部门不会再用你的系统,因为系统对他来说不准确,大家说“你能百分之百采集吗?”我们现在实施的项目基本上接近百分之百的采集,我随便写一个存储过程,你采出来有这个本事吗?没这个本事,但是作为数据管理,我给大家提的时候,比如跟银联做,我的采集达到95%,另外那个5%怎么办?我会说你写的这个不规范,写成这样的代码连机器都不认识,以后人怎么维护这个事情,应该改掉、优化掉、重构掉。第一,我们要强调自动化,但是对于不规范的东西,我们要说出它的问题到底在哪儿,我们认为你的数据资产其实是自动采集的过程,然后形成一个数据的地图。数据质量是从需求开始控制的。很多时候我提需求的时候是不是能跟我的业务原语义结合起来,然后再对需求进行控制,而不是到了设计,开发,甚至到了最后的阶段,需求的时候对质量就应该有一个跟踪,数据管理部门提供这样一个工具给需求团队用得到,然后才能做,不可能让人家做需求的时候考虑到你的问题,这是很难的。这里我们要讲以语言数据为核心,用元素和需求做配套。
同样提供这样一个数据服务其实是更智能化的数据服务,以前我做数据的时候会发现由于我各个原系统和大数据的系统有一定量的限制,很多热的数据是频繁使用的,这些数据不应该每次都再到数据仓库或者在大数据平台里把它抓出来,这样一个热数据就是数据管理需要管理的,需要把这样一些热数据做一些缓存,能够让我在下一次更好的使用。以大运河为例,运河它就是一个渠道,我们在中间的层面它不只是一个渠道,大运河上发现边上有很多湖。这些湖就是对运河渠道水位调节作用的,同样我们也应该有这样一个湖,没有这样一个湖很难把前端的应用用好,刚才我讲的热点数据只是之一,数据的脱敏、安全性管理都是要做的,我们在中间提供了非常好的手段把这些数据管理好,来自很多维度的数据管理好。
管理能力要变成服务化的能力,也就是说你的数据地图可能是对外的API,形成页面的组件给应用用去,你的数据字典要嵌入管理的系统里去的,你的数据标准能不能跟设计连接起来,让人家在设计库表结构、数据结构的时候就能用到你的东西,你本身就应该是服务化的,而不是别人到你的系统里用。我在开发的需求工具里面就能看出业务原语义是什么样子的,用这样的业务原语义写你的需求,用这样的工具把IT的很多环节做一个串联。从这个角度来说我们刚才讲的最重要的其实是把我的数据治理能力服务化,能给很多外界的应用,用系统,让开发者、运维者、架构师用起来。
普元大数据治理架构实践
接下来我会再讲一两个案例,如苏州工业园区的三库三通九枢纽,在三库三通九枢纽实现上,我们做了原数据的系统,以后做操作的时候是通过中间层操作,中间层可以给你提供实时的数据访问能力也可以提供非实时、准实时的访问能力,中间层会对整个数据生命周期进行管理,它从技术实践上来讲更像传统数据的管理系统,通过一个中间层做。有了一个中间层、有了元语义才能做到共享,而不是变成子数据,它是有数据访问处理的能力的。
第二在浙江电力数据自助化服务的平台,这个平台,我分析它可能更像自助查询的系统,但是在自助查询系统里多了一些什么东西,就是自助查询系统里多了业务元语义的查询,业务元数据我也有,我以前做查询的时候放一个备注也能达到这个点。确实是这样的,如果对一个单应用做这样的管理当然能做到这一点,但是当你的数据来源非常广泛的时候,不是每个人都能帮你做这个事情的,所以在你的原系统里,除了有技术原数据之外,更好的要把业务原数据提供出来,这个不应该仅仅使用手工维护的方式,而应该用搜索这些方式,从规范、规则、业务政策把这样的业务原数据提供出来,不可能百分之百,但是如果做出百分之七八十已经解决非常大的问题了,做到百分之七八十已经能够把数据管理的流程打通了,已经能够帮助提高大家更集约化使用数据的水平了。
第三个是东航数据的地图,他们数据的部门希望能从支撑的部门变成服务的部门,要给内部其他各个应用提供数据,这个数据到底是什么就是刚才讲的用数据地图分成各个数据的主题,点开看到这些数据到底是分主题是什么,实体是什么,语义是什么,管理是什么样子,用可视化的方式把整个数据资产进行管理,去管理起来。
总结一下今天我讲了几方面的问题,跟大家做了分享。(1)数字化转型,看到苏州工业园区、红领集团的例子非常需要大数据对它进行支撑,支撑过程当中,数据治理是关键,要用技术手段做治理,而不是纯粹的用规章制度的方式做。把数据治理做得好,需要很多原则,对照这个原则是否实现以知道数据治理是不是好。
对于我所在的普元这家公司来说,很多年前我们是做SOA中间件的,为什么做到数据治理,因为本身我们对IT是管理的,管理数据一是方面,另一方面我们现在做的业务系统里很少跟大数据打交道了,以前做交易的人他们怎么跟数据打交道,有一套这样的方法。我们今年做的工作自己会做产品的整合,有新的设计是个云的平台,这个云的平台里大家看到对不同的业务都有管理,有不同的业务、外部业务、手机业务、数据分析发掘的业务,他们的数据管理是要统一的,他们的运维是要统一的,而不是以前在数据线,另外是做数据交易的。我们要做整合。今年做了一个动作,把现在所有的研发都公开了,大家可以看到现在所有公开设计的文档,刚才看到的图上的一些主要设计的工作到底是怎么考虑的,这些设计到底有那些难点,怎么样检查都已经在这里面了。这个平台特别欢迎大家一起提出自己的问题我们一起沟通,一起愿大数据应用用好、管好、发挥价值,创造作用。谢谢大家!