Flume采集网站日志到MaxCompute

本教程通过Flume 离线采集日志到 MaxCompute,帮助中小企业实现低成本海量数据存储。

购买MaxCompute 开通相关产品 开通相关产品
场景概述
查看大图

准备工作

1)拥有Linux系统。

2)拥有一定的开发经验。

3)拥有阿里云官网实名认证账号,并且创建好账号Access Key。

教程任务

1)安装JDK和Flume,开通MaxCompute和Datahub。

2)下载并部署Datahub Sink插件。

3)创建需要上传的本地文件,创建Datahub Topic。

4)配置Flume作业配置文件。

5)启动Flume,将数据上传至Datahub。

6)配置Connector将数据归档至MaxCompute。

使用产品
  • 大数据计算服务(MaxCompute)

    快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

  • DataHub

    DataHub服务是阿里云提供的流式数据处理(Streaming Data)服务,它提供流式数据的发布 (Publish)和订阅 (Subscribe)的功能。

    免费
实现方法

    亲,您的浏览器版本太低,暂时无法加载显示

    请您升级到高版本的浏览器,或者切换成chrome浏览器进行查看

    常见问题
    • Q:上传数据成功后往MaxCompute归档时未成功?
      A :MaxCompute表的字段和Datahub topic字段大小写不一致(还要注意Flume配置文 件中a1.sinks.k1.serializer.fieldnames的一致性)。
    • Q:为什么ak没有修改过却报ak有错?
      A :先检查ak是否被禁用,若没有不断刷新页面。
    • Q:配置文件中写入数据源却找不到指定路径的文件?
      A :本实验要在Linux系统下运行,路径也要写在Linux下的路径。
    • Q:Datahub endpoint地址不能识别?
      A :填的 endpoint是 ecs上用的,应填写公网地址。
    • Q:更改endpoint地址后依旧报同样的错?
      A :虚拟机未能ping通外网,重新设置虚拟机,搭建桥接模式。
    相关场景推荐