大数据产业发展与技术融合

当前,全球大数据正进入加速发展时期,技术产业与应用创新不断迈向新高度。大数据通过数字化丰富要素供给,通过网络化扩大组织边界,通过智能化提升产出效能,成为实体经济质量变革、效率变革、动力变革的技术依托之一,而大数据技术及其融合发展也已经成为最重要的技术发展趋势。
2019 年以来全球大数据发展在政策方面略显平淡,其中,美国的发布的《联邦数据战略第一年度行动计划(Federal Data StrategyYear-1 Action Plan)》意味着美国对于数据的重视程度继续提升,并出现了聚焦点从“技术”到“资产”的转变,其中更是着重提到了金融数据和地理信息数据的标准统一问题。此外,配套文件中“共享行动:政府范围内的数据服务”成为亮点,针对数据跨机构协同与共享,从执行机构到时间节点都进行了战略部署。同时,欧洲议会也通过决议敦促欧盟及其成员国创造一个“繁荣的数据驱动经济”。该决议预计,到 2020 年欧盟国内生产总值将因更好的数据使用而增加 1.9%。不管是否有更多的大数据政策出台,拓宽和深入大数据技术应用已经是各国数据战略的共识。
尽管政策推进略显缓慢,但大数据底层技术发展日渐成熟。在大数据发展的初期, ApacheHadoop 定义了最基础的分布式批处理架构,打破了传统数据库一体化的模式,将计算与存储分离,聚焦于解决海量数据的低成本存储与规模化处理。但当前 MPP 在扩展性方面不断突破使得 MPP 在海量数据处理领域又重新获得了一席之位。MapReduce 暴露的处理效率问题以及 Hadoop 体系庞大复杂的运维操作,推动计算框架不断进行着升级演进。随后出现的 Apache Spark 已逐步成为计算框架的事实标准。在解决了数据“大”的问题后,数据分析时效性的需求愈发突出,Apache Flink、Kafka Streams、Spark Structured Streaming等近年来备受关注的产品为流处理的基础框架打下了基础。在此基础上,大数据技术产品不断分层细化,在开源社区形成了丰富的技术栈,覆盖存储、计算、分析、集成、管理、运维等各个方面。据统计,目前大数据相关开源项目已达上百个。
随着当前大数据体系的底层技术框架已基本成熟。大数据技术正逐步成为支撑型的基础设施,其发展方向也开始向提升效率转变,逐步向个性化的上层应用聚焦,技术的融合趋势愈发明显。“融合”成为大数据技术发展的最重要特征——

l 算力融合:多样性算力提升整体效率

随着大数据应用的逐步深入,场景愈发丰富,数据平台开始承载人工智能、物联网、视频转码、复杂分析、高性能计算等多样性的任务负载。同时,数据复杂度不断提升,以高维矩阵运算为代表的新型计算范式具有粒度更细、并行更强、高内存占用、高带宽需求、低延迟高实时性等特点,因此当前以 CPU 为调度核心,协同 GPU、FPGA、ASIC 及各类用于 AI 加速“xPU”的异构算力平台成为行业热点解决方案,以 GPU为代表的计算加速单元能够极大提升新业务计算效率。
不同硬件体系融合存在开发工具相互独立、编程语言及接口体系不同、软硬件协同缺失等工程问题。为此,产业界试图从统一软件开发平台和开发工具的层面来实现对不同硬件底层的兼容,如 Intel公司正在设计支持跨多架构(包括 CPU、GPU、FPGA 和其他加速器)开发的编程模型 oneAPI,它提供一套统一的编程语言和开发工具集,来实现对多样性算力的调用,从根本上简化开发模式,针对异构计算形成一套全新的开放标准。

l 流批融合:平衡计算性价比的最优解

流处理能够有效处理即时变化的信息,从而反映出信息热点的实时动态变化。而离线批处理则更能够体现历史数据的累加反馈。考虑到对于实时计算需求和计算资源之间的平衡,业界很早就有了 lambda架构的理论来支撑批处理和流处理共同存在的计算场景。随着技术架构的演进,流批融合计算正在成为趋势,并不断在向更实时更高效的计算推进,以支撑更丰富的大数据处理需求。
流计算的产生来源于对数据加工时效性的严苛要求。数据的价值随时间流逝而降低时,我们就必须在数据产生后尽可能快的对其进行处理,比如实时监控、风控预警等。如,近年来出现的 Apache Flink,则使用了流处理的思想来实现批处理,很好地实现了流批融合的计算,国内包括阿里、腾讯、百度、字节跳动,国外包括 Uber、Lyft、Netflix 等公司都是Flink 的使用者。

l TA 融合:混合事务/ 分析支撑即时决策

TA 融合是指事务(Transaction)与分析(Analysis)的融合机制。在数据驱动精细化运营的今天,海量实时的数据分析需求无法避免。分析和业务是强关联的,但由于这两类数据库在数据模型、行列存储模式和响应效率等方面的区别,通常会造成数据的重复存储以及数据时效性不足的问题。
混合事务/分析处理(HTAP)是实现在单一的数据源上不加区分的处理事务和分析任务。当前的方案主要有三种:一是基于传统的行存关系型数据库(类似 MySQL)实现事务特性,并在此基础上通过引入计算引擎来增加复杂查询的能力;二是在行存数据库(如 Postgres-XC 版本)的基础上增加列存的功能,来实现分析类业务的需求;三是基于列存为主的分析型数据库(如 Greenplum),增加行存等功能优化,提供事务的支持。但由于没有从根本上改变数据的存储模式,三种方案都会在事务或分析功能上有所侧重,无法完美的在一套系统里互不干扰地处理事务和分析型任务,无法避免对数据的转换和复制,但能在一定程度上缩短分析型业务的时延。

l 模块融合:一站式数据能力复用平台

大数据的工具和技术栈已经相对成熟,大公司在实战经验中围绕工具与数据的生产链条、数据的管理和应用等逐渐形成了能力集合,并通过这一概念来统一数据资产的视图和标准,提供通用数据的加工、管理和分析能力。
数据能力集成的趋势打破了原有企业内的复杂数据结构,使数据和业务更贴近,并能更快地使用数据驱动决策。主要针对性地解决三个问题:一是提高数据获取的效率;二是打通数据共享的通道;三是提供统一的数据开发能力。这样的“企业级数据能力复用平台”是一个由多种工具和能力组合而成的数据应用引擎、数据价值化的加工厂,来连接下层的数据和上层的数据应用团队,从而形成敏捷的数据驱动精细化运营的模式。其中,阿里巴巴提出的“中台”概念和华为公司提出的“数据基础设施”概念都是模块融合趋势的印证。

l 云数融合:云化趋势降低技术使用门槛

大数据基础设施向云上迁移是一个重要的趋势。各大云厂商均开始提供各类大数据产品以满足用户需求,纷纷构建自己的云上数据产品。比如 Amazon Web Service(AWS)和 Google CloudPlatform(GCP)很早就开始提供受管理的 MapReduce 或 Spark 服务,以及国内阿里云的 MaxCompute、腾讯云的弹性 MapReduce 等,大规模可扩展的数据库服务也纷纷上云,比如 Google BigQuery、AWS Redshift、阿里云的 PolarDB、腾讯云的 Sparkling 等,来为 PB 级的数据集提供分布式数据库服务。华为也在近期注册成立了华为云计算技术公司。早期的云化产品大部分是对已有大数据产品的云化改造,现在,越来越多的大数据产品从设计之初就遵循了云原生的概念进行开发,生于云长于云,更适合云上生态。向云化解决方案演进的最大优点是用户不用再操心如何维护底层的硬件和网络,能够更专注于数据和业务逻辑,在很大程度上降低了大数据技术的学习成本和使用门槛。

l 数智融合:数据与智能多方位深度整合

大数据与人工智能的融合则成为大数据领域当前最受关注的趋势之一,这种融合主要体现在大数据平台的智能化与数据治理的智能化。智能的平台促成了大数据平台和机器学习平台深度整合的趋势,大数据平台在支持机器学习算法之外,还将支持更多的 AI 类应用。如,Databricks 为数据科学家提供一站式的分析平台 Data Science Workspace,Cloudera 也推出了相应的分析平台 Cloudera Data Science Workbench。其次,数据治理与人工智能的发展存在相辅相成的关系:一方面,数据治理为人工智能的应用提供高质量的合规数据;另一方面,人工智能对数据治理存在诸多优化作用。AI 使能数据治理,是通过智能化的数据治理使数据变得智能:通过智能元数据感知和敏感数据自动识别,对数据自动分级分类,形成全局统一的数据视图。通过智能化的数据清洗和关联分析,把关数据质量,建立数据血缘关系。数据能够自动具备类型、级别、血缘等标签,在降低数据治理复杂性和成本的同时,得到智能的数据。
伴随着技术融合与应用的不断深化与发展,大数据的产业规模也在近年稳步提升。有机构预测,到2020年,全球大数据市场的收入规模将达到 560 亿美元,较2018 年的预期水平增长约 33.33%,较 2016 年的市场收入规模翻一倍。随着市场整体的日渐成熟和新兴技术的不断融合发展,未来大数据市场将呈现稳步发展的态势,增速维持在 14%左右。在 2018-2020 年的预测期内,大数据市场整体的收入规模将保持每年约 70 亿美元的增长。在具体的细分市场中,大数据硬件、软件和服务的市场规模均保持较稳定的增长,并随着机器学习、高级分析算法等技术的成熟与融合,更多的数据应用和场景正在落地,大数据软件市场将继续高速增长。
(来源:泰一数据)

要发表评论,您必须先登录