【BDTC2016】大数据分析与生态系统论坛：大数据存储、处理技术大比拼百花齐放落地实践大展现

2016年12月8-10日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办，以“聚焦行业最佳实践，数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

大会第三天，大数据分析与生态系统论坛在中国科学院计算技术研究所副研究员查礼的支持下正式开始。他介绍了本次论坛的议题组成，包括开源社区的某些项目进展，如华为CarbonData，Apache Kylin；包括开源技术应用案例，如流失计算、资源管理等等在实际业务当中的应用；此外还有自研平台技术成果分享。

华为大数据设计部部长、Apache Carbondata PMC Committer李昆：CarbonData——面向交互式分析的索引文件格式

华为大数据设计部部长、Apache Carbondata PMC Committer李昆在主题演讲《CarbonData——面向交互式分析的索引文件格式》在演讲中对比了当前几大存储主流技术的优劣。首先是NoSQL，其速度快，只能通过Key访问，一键一值，适合实时应用对接，不适合分析型应用。第二是并行数据库（Parallel Database），它采用细粒度控制并行计算，适合中小规模数据分析（数据集市），但缺点是扩展能力有上限、查询内容错能力弱，不适合海量数据分析（企业级数仓）。另一个是Search Engine，适合多条件过滤及文本分析，但无法完成复杂计算，且数据膨胀较大，需要专用语法，难以迁移。最后为SQL on Hadoop，它适合海量数据计算，不足是仍然使用为批处理设计的存储，可用场景有限。

数据存储解决方案，可谓百花齐放，但大多只能针对一个场景，解决一部分问题。数据架构师该如何选择，要么做出妥协，只满足部分应用，要么复制多份数据，满足所有应用。为了应对这一选择苦恼，CarbonData应运而生。它更易用，一份存储覆盖更多场景，且具有更高的分析性能，面向用户提供交互式分析。已于2016年6月全票通过正式进入Apache孵化器。

* 跬智科技首席技术官李扬：Apache Kylin的新Streaming OLAP实现*

跬智科技首席技术官李扬在《Apache Kylin的新Streaming OLAP实现》主题演讲中分享了Apache Kylin V1.5、V1.6两个版本对Streaming的诸多尝试。

流数据如何分段，时间蹉的方式行不通，V1.5版本中，对数据按时间进行切割与定位，然后通过改进后的二分查找方式查找。针对数据碎片化问题，V1.5版本按一定的时间间隔，将它们自动合并成大的Segment。V1.5最大成就是，通过流式构建，解决了数据延时问题，同时也也存在一些缺陷，如构建不能自动伸缩、近似二分查找会丢失数据、构建任务难以监控、错误恢复困难、整体运维成本高等。

基于V1.5版本的经验与教训，V1.6版本重构了Streaming，将Kafka作为标准的数据源，解决了V1.5版本的伸缩性问题。针对数据遗漏，V1.6版本改为按offset切分，彼此间不能有重合，Segment之间允许有时间值重合，确保了数据一致性和查询准确性。此外，还进行了其他改进，如自动寻找开始和结束的Offset；支持嵌套式JSON消息，支持自定义时间格式；允许多Segment并行构建/合并等。

北京邮电大学副教授熊永平：DI——基于Sppark的交互式数据探索与建模系统

北京邮电大学副教授熊永平在主题演讲《DI——基于Spark的交互式数据探索与建模系统》中表示DI大数据探索分析系统主要针对普通的数据分析人员，几乎不需要编程开发分布式程序，可提供直观易用的图形化系统界面。目前还处于不断完美过程中。

它基于Spark，其交互式数据探索框架的核心技术要点有，每个工程运行在一个单独的Spark环境，Spark环境资源由YARN分配调度；DI和Spark常驻内存，通过消息队列交互；利用RDD保存探索过程中的各种中间表。

它提供了数据转换功能、文本分析、数据探索功能。标准Spark并没提供文本分析功能，该功能利用文档预处理、自然语言处理、主题检测等功能分析文本数据，便于数据分析人员处理非结构化文本数据，使用到的典性算子有特征词提取、新词识别、词语语义距离分析Word2Vec。

* 滴滴出行大数据部BI系统组负责人艾毅：业务实时监控系统架构及实践*

滴滴出行大数据部BI系统组负责人艾毅在主题演讲《业务实时监控系统架构及实践》中首先分析了滴滴实时监控系统演变历程。目前该系统采用Kafka+Druid+Samza技术架构，优势有可实时分析海量数据（秒级），实现了OLAP系统交互式查询，具有高可用性、易扩展性、高性能、支持有状态的实时计算。紧接着他分享了该技术选型背后的重要原因。

接下来，艾毅分享了该技术选型背后的原因。Kafka是一个高性能、高可用、易扩展的分布式日志系统，可很好地对整个数据处理流程进行解耦，这对实时监控系统架构很关键。Druid是针对时间序列数据提供低延时的数据写入以及快速交互式查询的的分布式OLAP数据库，其数据存储方式有，（1）为OLAP查询优化过的列式存储结构Segment；（2）Segment中存储聚合计算后的统计结果；（3）主要根据时间对Segment文件进行分片存储。此外，还介绍了Druid的数据处理流程。Druid支持近似统计算法、支持地理查询。至于Samza，它是一个分布式的实时计算框架，支持低延时的、有状态的实时计算。接下来，就运行机制、高可用性、数据处理流程、常见计算类型对Samza做了详细介绍。

PayPal数据科学家张彭善：分布式机器学习算法在PayPal风险控制部门的实践

PayPal数据科学家张彭善在《分布式机器学习算法在PayPal风险控制部门的实践》主题演讲分享了PayPal在欺诈领域所做的技术实践，主要包括三大部分：机器学习的应用场景，通过机器学习构建管道并应用到实际交易中及系统优化经验。他表示PayPal所研发的机器学习模型在反欺诈中扮演着越来越重要的角色，已经超过50%的欺诈都是通过该模型抓到的。构建这样的模型最关键点是如何构建数据仓库和特征工程。构建特征工程时，PayPal基于Sensitivity Analysis开发了特征选择流程。

Facebook工程经理金昀：Facebook计算和存储分离的分布式计算平台

Facebook工程经理金昀分享了主题为《Facebook计算和存储分离的分布式计算平台》演讲。据金昀介绍，Facebook的数据仓库建立在以Hadoop为核心的基础架构上，大量采用开源软件开发的应用系统，离线计算通过HDFS来处理，很多流式计算技术和Kafka非常接近。从业务场景方面看，实时计算要求越来越高，近两年来Facebook花了很大精力去提高和实现流式计算能力。但从目前来看，大部分比例计算还是用于Hive，主要聚焦在Hadoop和HDFS的实现。在谈到计算存储的分离时，金昀重点介绍了Warm Storage存储系统，它是Facebook开发用来替换HDFS的分布式存储系统。

中国移动苏州研发中心高级研发工程师陶捷：DCOS on YARN在中国移动的实践

中国移动苏州研发中心高级研发工程师陶捷首先介绍了苏研的研究方向，聚焦大数据的技术研究及产品研发，基于开源Hadoop软件面向公司内外提供DaaS、PaaS和SaaS服务，提供统一的运营管理平台。他的演讲分为三部分：1.Slider on YARN；2.Jenkins in Docker on YARN；3.未来规划和展望。陶捷认为，Slider有几个方面的优势，首选是支持新应用成本低，提供资源管理和隔离，可实现应用的自动恢复，支持同一集群内多应用实例。但仍有不少缺陷，例如客户端单一，仅提供了Shell CLI；服务发现机制不够友好；应用的监控、日志管理功能、应用配置管理薄弱；应用访问本地数据问题等。

关于YARN上运行Docker，陶捷比较了三种不同方案的差异。方案一：DistributedShell，分发Shell脚本到各个节点，Shell脚本启动和维护Docker实例。这种方案逻辑简单，但对Docker的管理弱，缺乏监控、日志等功能。

方案二，DockerContainerExecutor：通过DockerContainerExecutor启动MapReduce任务，MR任务运行在Docker中，并负责与外界交互逻辑。这种方案具有一定Docker管理能力，主要支持MR计算框架。

方案三，Docker on Slider：由Slider负责管理Docker，这种方案适合长时服务，但只能支持已有应用。

百度基础架构部分布式计算架构师黄鑫：百度大数据离线计算平台发展历程

百度基础架构部分布式计算架构师黄鑫分享了主题为《百度大数据离线计算平台发展历程》的精彩演讲。他重点介绍了百度统一分布式计算API-Bigflow，不仅采用了分布式可嵌套数据集(NDD)模型，相比于业界同类系统抽象程度更高，而且对接了多种计算引擎，包括批量引擎、迭代引擎、流式引擎，方便用户切换执行引擎。此外，由于完成了许多优化策略，使得Bigflow可以高效运行。目前通过在线上大规模验证，Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标。此外，黄鑫还介绍了百度离线计算引擎DCE，DCE基于分布式计算，支持各种实际业务需求所定制的交互方式，比如各类数据的优化，比老的Shuffle效率高很多。

中兴飞流信息科技有限公司CTO郑龙：Yita——基于数据流的大数据计算引擎

中兴飞流信息科技有限公司CTO郑龙分享了主题为《Yita：基于数据流的大数据计算引擎》演讲。他首先谈到了基于数据流的Yita系统和传统控制流大数据系统的差异，在编程模型、处理模式、并行模式上都有大幅差异和更新。据郑龙介绍，Yita大数据处理平台流性能要优于Storm，批处理性能优于Spark，兼容Hadoop生态系统，既可作为加速模块，亦可独立支撑业务。适用的业务场景包括了视频分析、用户关联分析、推荐系统、智能运维根因分析等多个领域。对于即将发布的Yita V1.1版，郑龙透露将包含机器学习算法库等多项功能。

DataTorrent高级工程师、Apache Apex PMC华思远：下一代实时数据处理引擎——Apache Apex项目简介及应用

DataTorrent高级工程师，Apache Apex PMC 华思远分享了《下一代实时数据处理引擎——Apache Apex项目介绍及应用》演讲。华思远表示，Apache Apex是一个用Java开发的开源流数据处理平台，Apex从一开始就关注海量处理能力、高吞吐、低延时、高可用性，它的设计和架构也使其可以同时适用于实时数据处理和批处理。如今已经被部署在很多大公司的关键数据处理应用上。此外，华思远介绍了如何用Apex的一些高级的Partition特性来实现高扩展性，如何按需分配资源，如何实现容错，如何保证数据只处理一次等。最后他还展示了Apex在具体生产环境中的一些应用，Apex现在正在开发的特性以及将来的路线图。

云账户联合创始人兼CTO邹永强：金融SaaS实战：云账户钱包SDK的技术挑战与解决方案

云账户联合创始人兼CTO邹永强分享了主题为《金融SaaS实战：云账户钱包SDK的技术挑战与解决》演讲。据邹永强介绍，云账户钱包SDK提供红包SDK和结算SaaS，解决五大挑战：1.为保障金融产品的可靠性与一致性，通过状态定义和事务处理；2.为提升并发性能，采用了请求分区、轻重分离、削峰填谷的架构设计，以及Golang实现；3.安全层面，提供网络安全、金融安全、业务安全，并形成红包和结算的独特风控机制；4.对数据处理和运营，借助日志收集系统，完成统计、流水和对账，提供日志搜索；5.对SDK产品解决集成、升级、机型兼容、调试等挑战，并集成至五大IM SDK以简化集成。

Apache HAWQ创始人，乐我科技CEO常雷：云中Apache HAWQ服务：轻松取代传统数据仓库

Apache HAWQ创始人，乐我科技CEO常雷在演讲中首先介绍了传统企业数据平台面临的问题与挑战：（1）意识到数据的重要性，但是还在艰难的摸索充分利用数据的方法；（2）实现分析型应用的周期过长：1年或者更久；（3）传统解决方案非常昂贵，性能及可扩展性不能满足需求，发布周期很长；（4）开始尝试一些新技术，安装了Hadoop系统，但是管理和开发应用很复杂；（5）服务响应很慢，往往几个月才能解决一个碰到的Bug；（6）与新平台新技术的结合（Docker/PaaS云平台）。

随后，常雷回顾了数据平台的演进路线的三个阶段：最早的“传统BI分析”时代，往往采用小型机或一体机的专有硬件平台，面向传统BI分析，系统缺乏弹性，资源固定，不易调整，很难支持突发的应用需求或密集复杂的计算需求，成本居高不下；到了“大数据&BI分析分析”阶段，大量采用工业标准的X86服务器；面向大数据和传统BI分析可以支持密集、复杂的计算需求，但需要一定时间，开始有效控制成本；到了（云平台大数据& BI分析）阶段，基于以Kubenates为代表的PaaS云平台；根据工作负载弹性伸缩，灵活配置，按需分配资源，可以快速支持突发的应用需求或密集、复杂的计算需求，如：沙盘演练、机器学习、大视频处理等，总拥有成本最低。

最后，常雷介绍了HAWQ-DB，可兼容ANSI-SQL标准的高性能原生Hadoop MPP++分析型数据库。原生支持PaaS云平台，提供对Hadoop上PB级数据的高性能交互式查询能力，提供对主要BI工具的描述性分析支持，支持预测型分析的机器学习库。

（本文转载自CSDN）