机器学习实现海量新闻自动分类

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。

试用机器学习 开通相关产品 开通相关产品
场景概述
查看大图

准备工作

1)用户拥有阿里云账号,并创建好账号AcessKey。

2)开通大数据开发套件/MaxCompute/机器学习产品。

教程任务

1)数据导入MaxCompute及预处理。

2)增加序号列。

3)分词及词频统计。

4)停用词过滤。

5)文本主题挖掘。

使用产品
  • 机器学习(Machine Learning)

    阿里云机器学习是基于阿里云分布式计算引擎的一款机器学习算法平台。

  • 大数据开发套件(Data IDE)

    大数据开发套件提供可视化开发界面、离线任务调度运维、快速数据集成、多人协同工作等功能,为您提供一个高效、安全的离线数据开发环境。

    免费
  • 大数据计算服务(MaxCompute)

    快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

实现方法

    亲,您的浏览器版本太低,暂时无法加载显示

    请您升级到高版本的浏览器,或者切换成chrome浏览器进行查看

    常见问题
    • Q:导入数据时如何解决乱码问题?
      A :如果原始字符集设GBK时中文出现乱码,可将原始字符集改为UTF-8。
    • Q:如何查看机器学习实验生成的模型?
      A :可在机器学习管控台左侧导航栏模型下进行查看。
    • Q:为什么实验成功依然查看不到生成模型?
      A :在开始运行节点前要设置自动生成PMML。
    • Q:如何删除已生成的模型?
      A :直接在命令端执行 DROP OFFLINEMODEL [IF EXISTS] <offline_model_name>;(offline_model_name是要删除的模型名)
    相关场景推荐