数加 · DataWorks

DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。
从0到1带您由浅入深,玩转 DataWorks!

管理控制台 帮助文档 V 2.0 帮助文档 产品地图 机器学习PAI MaxCompute

  • 全生命周期数据应用开发

    从数据开发到算法开发,从服务开发到应用开发,闭环涵盖数据业务全流程。

  • 下一代大数据云研发平台

    提供离线、实时、机器学习Studio满足大数据全业务场景。

  • 完美支持数据中台

    为全域数据汇聚与融合加工、数据治理与分享提供温床,助力企业完美升级数据体系。

  • 全智能化体验

    引入SQL智能编辑器、智能基线监控、数据质量监控、数据保护伞,赋能AI时代必备能力。

覆盖大数据全业务场景的功能体系

  • 海量数据无障碍上云

    供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

    多数据源快速上云

    支持多库、多表整体数据上云的快捷配置。


    多种配置方式

    同时兼容可视化向导模式、复杂配置的脚本模式以及API模式创建数据集成任务。


    多种同步方式

    支持实时、历史数据的批量、增量同步,同步速度可以打满万兆网卡。


    任意数据源、任意网络环境数据抽取

    支持任意结构化、非结构化、半结构化的数据传输;同时可配置Agent至自有跳板机,实现对内网环境数据源的抽取与同步。

  • 从业务视角进行数据开发

    构建项目->解决方->业务流程三级结构,帮助用户获得更加清晰的开发逻辑。

    科学规范的项目模式

    提供开发、生产环境隔离的“标准项目模式”,将更稳定的生产环境带给用户。


    业务流程与解决方案

    从业务视角管理整体工作流,将同类业务组织为解决方案,实现沉浸式开发。


    SQL智能编辑器

    提供SQL格式化、智能补齐、关键字高亮、错误提示、SQL内部结构等人性化功能,带来更顺滑的SQL开发体验。

  • 四两拨千斤的任务监控

    通过简单配置赋予智能监控系统自行决策“是否报警、何时报警、如何报警、给谁报警”的能力,以实现复杂工作流的全链路监控。

    降低您的配置成本

    仅需对最终产出任务配置基线即可实现全链路监控,告别对成百上千任务单独设置监控的繁琐。


    杜绝无效报警

    仅过滤出可能影响最终任务产出的事件进行报警推送,有的放矢地作出提醒。


    三种报警体系

    基线预警预警、事件告警、自定义报警三种机制协同满足用户各类监控场景。

  • 全链路数据质控

    提供对多种异构数据源的质量校验、通知、管理能力。

    丰富的预设规则模板

    43中预设模板与规则满足用户对表级别、字段级别质控要求。


    扼杀祸患于襁褓之中

    源端数据变更,可自动分析受影响方并提前通知,有效提升故障拦截率。


    数据质量报告

    提供历史校验结果的管理,以便您对数据质量分析和定级。

  • 便捷的数据共享服务搭建

    基于Serverless为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。

    Serverless构建方式

    告别传统构建API的开发、运维流程,仅需关注API本身逻辑即可在web页面完成配置,并支持弹性扩展,运维成本为0。


    简单管理API生命周期

    基于web页面可完成API发布、管理、运维、售卖的全生命周期管理,助力用户简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成的工作。


    一键打通商业模式

    支持一键将API发布至阿里云市场进行售卖,直接将数据能力变现。

  • 可靠的数据保护伞

    大数据安全管理,提供数据资产识别、敏感数据发现、数据分类分级、脱敏、访问监控、风险发现预警与审计能力

    敏感数据智能识别

    基于自学习的模型算法,自动识别企业拥有的敏感数据,并以直观的形式展示具体类型、分布、数量等信息;同时支持自定义类型的数据识别


    精准的数据分级分类

    支持自定义分级信息功能,满足不同企业对数据等级管理需要


    灵活的数据脱敏

    提供丰富多样、可配置的数据脱敏方式,无论是存储环节的静态脱敏,还是使用环节的动态脱敏


    用户异常操作风险监控和审计

    利用多维度关联分析及算法,主动发现异常风险操作,提供预警以及可视化一站式审计

  • 人工智能触手可及

    阿里云机器学习平台(PAI)集数据处理、建模、离线预测、在线预测为一体,向用户提供更简易的操作体验。

    良好的交互设计

    通过对底层的分布式算法封装,提供拖拉拽的可视化操作环境,让数据挖掘的创建过程像搭积木一样简单。


    优质、丰富的机器学习算法

    提供经过阿里大规模业务锤炼而成的基础的聚类、回归类等算法与文本分析、特征处理等复杂算法。


    支持主流深度学习框架

    包含Tensorflow、Caffe、MXNet三款主流的机器学习框架,底层提供M40型号的GPU卡进行训练。

  • 最适合于大数据数仓建设的平台

    阿里集团数据仓库必用平台,提供全面的数仓服务

    数仓全链路的解决方案

    DataWorks提供数据汇聚、数据处理、数据治理、数据服务全流程解决方案。涉及到产品包括:数据集成、数据开发、数据质量、数据保护伞、数据服务等。


    开发/生产环境可隔离

    提供开发/生产隔离的机制,开发项目中进行代码调试,发布到生产中保证业务稳定。从根本上保障了稳定性和安全性。


    一站式平台

    通过控制台一站式可以完成全部的开发、运维等全链路的操作。无需切换多个工具


    安全可靠

    提供租户级别基础安全机制。并且提供租户内的丰富的数据权限管理能力。

  • 稳定高效的调度系统

    支持百万级别任务稳定调度,保障业务稳定

    稳定可靠

    统一的数据任务调度平台,支持百万级任务的复杂调度,让数据加工更流畅。


    可视化管理

    提供DAG可视化操作界面。


    多种调度周期支持

    支持分钟、小时、天、周、月多种调度周期配置。


    监控报警

    调度任务支持多种报警方式,出错、指定时间未完成/已完成。

  • 强大的多人协作开发能力

    提供完善的权限、角色模型,可多人同时在线操作

    用户角色可管理

    提供管理员、开发、运维、访客 多种角色,降低管理成本。


    多人协作开发

    提供版本管理能力,提供锁机制。多人可协作开发代码。

  • 基于MaxCompute强大的计算存储能力

    MaxCompute提供EB级存储和计算能力

    超大规模计算及存储

    适用于100GB以上规模的存储及计算需求,最大可达EB级别。


    高稳定性

    在阿里巴巴集团内稳定运行达三年以上,支撑阿里巴巴集团几乎全部离线分析业务。每天支持10万以上的计算任务,处理上百PB的数据。


    极大降低企业使用成本

    与企业自建私有云相比,成本更低。更高效的计算及存储能力能够降低企业20%~30%的采购成本。


    安全可靠

    多层沙箱防护及监控系统有效保障用户数据安全。

DataWorks V2.0亮点功能展示

1、丰富的异构数据源

2、SQL智能编辑器

3、DAG图拖拽与提交

4、在线Excel分析

5、可视化运维

6、DQC数据质量监控

7、0开发成本构建数据服务API

x

典型实战场景

  • 使用成本低

  • 日志大数据分析

  • 精细化运营

  • 全域大数据应用

  • 精准化广告营销

  • 数据安全管理

  • 使用成本低

    东润环能

    3个月内业务全面交付云端,数据处理时间不到原来自建方式的1/3,并确保云上新能源电力数据安全无忧

    客户收益

    • 让企业更专注与业务

      用了不到3个月时间,就将业务全面的交付云端,让云端的海量资源真正为业务服务

    • 降低投资、运维成本

      极大减少了自建大数据平台的物力投入、人力运维投入和研发投入

    • 安全稳定

      全方位服务能力及其稳定安全的表现确保数据上云万无一失

  • 日志大数据分析

    墨迹天气

    墨迹天气日志分析业务迁移到数加MaxCompute后,开发效率提升了超过5倍,存储和计算费用节省了70%,每天处理分析2TB的日志数据,更高效的赋能其个性化运营策略。

    客户收益

    • 提高工作效率

      日志数据全部通过SQL进行分析,工作效率提升了5倍以上

    • 提升存储利用率

      整体存储和计算的费用比之前节省70%,性能和稳定性也有提升

    • 降低大数据使用门槛

      MaxCompute提供多种开源软件的插件,轻松完成数据上云

  • 精细化运营

    美甲帮

    美甲帮的主营业务在商城方面,截至目前已经拥有百万级别的用户,积累了大量的用户数据,如何更好的服务用户并提升客户体验是美甲帮进行大数据探索的出发点

    客户价值

    • 提升业务洞察能力

      通过MaxCompute计算能力实现了针对百万用户的精细化运营

    • 业务数据化

      对业务数据分析能力提升并有效监控,更好的业务赋能

    • 快速响应业务需求

      数加生态满足新业务数据分析需求的“随机应变”能力

  • 全域大数据应用

    网聚宝

    通过MaxCompute海量数据的处理分析能力,为电商品牌商提供“大数据+”升级服务,帮助企业构建数字化商业能力,实现大数据变现

    面临的挑战

    • 海量数据处理分析能力

      如何快速有效的对品牌商已积累的海量数据进行处理分析

    • 敏捷大数据分析能力

      在市场瞬息万变的当下,品牌商需要上一秒交易,这一秒可能就要出报告分析

    • 大数据业务洞察能力

      如何帮助品牌商洞察出更多的商业价值

  • 精准化广告营销

    汇合营销

    基于阿里云数加平台,汇合营销搭建了核心的大数据精准营销平台,所有的日志数据存储在MaxCompute并通过Data IDE进行离线调度和分析

    能够解决

    • 高效低成本的海量数据分析

      对海量日志数据进行统计分析,既要保障高效率,也要降低开发成本

    • 数据查询分析的实时性

      系统需要在毫秒级响应广告商的查询请求并返回标签的用户量等信息

    • 低门槛的机器学习平台

      作为精准营销广告提供商,算法模型的好坏直接与最终收益挂钩

  • 数据安全管理

    天弘基金

    “自从我们开始使用数据保护伞,它能够轻易地解决一系列数据安全挑战。精确地识别敏感数据,很好地实现公司数据分级、分类原则。对于我们关心的高危访问行为,进行识别和可视化展示” —天弘信息安全主管

    能够解决

    • 敏感数据识别

      通过用户自定义规则,自动识别敏感数据,标记对应级别

    • 敏感数据展示脱敏

      提供设置脱敏规则功能,实现敏感数据查询展示脱敏

    • 敏感数据操作风险监控

      可视化监控数据分布、数据使用、数据导出,提供自定义风险识别和审计功能

培训与认证