大数据仓库

阿里云为您提供包括从数据采集、数据存储、数据加工、数据管理、数据运维调度等完整的数仓解决方案。

业务痛点及需求

数据采集

数据采集是数据仓库建设中最基础的工作,负责将散落在各个数据孤岛的数据整合到统一数据仓库平台中。数据采集不只需要能够从多种不同类型的数据系统采集数据,还要考虑数据采集的效率,通过全量和增量采集相结合的手段完成采集工作。在采集的过程中,还不能对在线系统产生影响。

数据生产链路监控

就像工业流水线一样,数据仓库的数据加工过程是一个数据生产的有向无环图。如何让数据有序的按照数据模型设计的逻辑一步一步被加工出来,保障数据上下游依赖的正确性,在发现问题时能够提醒开发人员及时处理,是一个艰苦而细致的工作,也是数据仓库建设过程中最主要的工作。

数据质量管理

数据质量是数据仓库的生命线,是数据仓库建设中的重中之重。在数据生产的整个链条中,需要能够根据数据特征制定不同的数据质量监控规则,随时监控数据的产出质量,并制定出相应的控制手段,保障不让有质量问题的数据影响业务的决策。

方案概述

在数据仓库的建设中需要从各种源头业务系统中把数据统一采集到数据仓库中,在统一的基础平台上对数据进行加工。在数据生产的链条中,保障数据产出的稳定性和数据产出的质量是数据仓库建设中的重要内容。
数据集成
通过DataWorks的数据集成服务,将分散在不同物理环境下的异构数据源中的数据, 以增量或全量的方式统一采集到数据仓库中。
数据研发
DataWorks中的数据开发、机器学习、数据服务等功能,结合任务调度系统, 可轻松实现企业级数据仓库、数据应用、数据可视化、日志分析、广告营销等多种大数据解决方案。
数据治理
数据资产管理可进行元数据和血缘的查询;数据质量可从源头上减少数据污染; 智能监控可确保任务的最终产出时间;数据保护伞可保障数据安全。DataWorks全面集成上述功能,让数仓治理无后顾之忧。
MaxCompute & Blink
MaxCompute它能提供PB级数据仓库解决方案,让您经济、高效的分析处理海量数据。 Blink是流式数据实时化分析工具,具有低延迟、高吞吐、简单易用等特性,为您提供良好的流式开发体验。

解决方案优势

强大的数据整合能力

强大的数据整合能力

不管是存量的历史数据,还是不同应用系统的数据,都可以通过数据采集工具统一采集到阿里云大数据平台中。满足用户整合不同系统数据,统一加工分析的需求。

多样的计算引擎

多样的计算引擎

阿里云大数据平台的分布式计算服务提供多样的数据计算引擎,SQL、MR、图计算、MPI等,满足针对不同数据类型、进行不同类型加工的需求。

强大的数据处理能力

强大的数据处理能力

阿里云大数据平台的大数据计算服务能够帮助用户针对TB/PB级数据进行分布式的数据加工,后台强大得计算能力,支持用户做更深度、更复杂的加工。不会因为数据的增长而操心数据计算能力。使数据工程师专注到数据价值本身的挖掘。

多样的数据质量保障手段

多样的数据质量保障手段

阿里云大数据平台的数据管理工具为您提供多种数据质量保障手段,使你对数据采集、加工、应用的过程进行全链路的数据监控和保障。即时发现数据质量问题,不会让有质量问题的数据直接流入到决策层和业务人员的手中。

全链路的数据生产保障

全链路的数据生产保障

阿里云大数据平台的数据开发套件上,您可以进行全链路的数据加工过程。整个过程被我们稳定的调度系统进行生产调度。生产过程中任何问题都会及时反馈到数据工程师,让数据工程师能够随时掌控数据生产过程,保证数据的稳定产出。

全方位的数据安全掌控

全方位的数据安全掌控

阿里云大数据平台提供全方位的安全管控,多层次的存储和访问安全机制,保护您的数据不丢失、不泄露、不被窃取。

使用产品

大数据计算MaxCompute

向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全

DataWorks

是一种基于大数据OS、以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。同时满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。

数据集成

数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,为阿里云各个云产品(包括MaxCompute、AnalyticDB、OSS、OTS、RDS等)提供离线(批量)数据进出通道。