0800集团:NLP学习实践新闻文本分类

0800集团Day 1

背景:题目以自然语言处理为背景,要求根据新闻文本字符对新闻进行分类,是一个经典文本分类问题

数据:数据来源于互联网上的新闻新闻消息分类,通过收集并匿名处理得到(为了预防选手人工标注测试集的情况),匿名处理其实是对每个新闻文本进行分词新闻消息分类,然后对词进行编码新闻消息分类,最终的文本是一个编码后的列表)

0800集团新闻被整合划分为14个类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐

数据组成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。

0800集团:NLP学习实践新闻文本分类

0800集团思考:

后续的研究工作包括特征提取和文本分类两个部分,但是由于匿名化处理,中文词语到数字编码的过程中损失了许多信息,比如词性和上下文联系,同时分词的颗粒度也无法知晓(比如“不用加班”是一个词,还是 “不用”、“加班”两个词),所以初步考虑词频特征是首要的重要特征。该特征的提取有两种方法:

构建词频向量构建TD-IDF特征

0800集团:NLP学习实践新闻文本分类

Day 2 数据读取与预览

由于训练样本有20W新闻消息分类,本地内存甚至都无法完成词频统计,所以尝试使用了天池实验室的PAI-DSW,GPU跑起来就是爽,界面也十分友好。

(1)使用linux命令(以!开头即默认为linux命令)完成数据上传和解压

0800集团:NLP学习实践新闻文本分类

0800集团:NLP学习实践新闻文本分类

(2)读取数据、计算每条新闻长度

可以发现,训练集新闻样本长度参差不齐,明显右偏,平均长度为907,且97%的文本长度小于3000

0800集团:NLP学习实践新闻文本分类

0800集团:NLP学习实践新闻文本分类

0800集团:NLP学习实践新闻文本分类

(3)统计不同类别的新闻数目

0800集团:NLP学习实践新闻文本分类

(4)统计整篇训练集的词频

其中超高频词汇 3750、648、900很有可能是标点符号

0800集团:NLP学习实践新闻文本分类

5)统计每个类别的新闻的词频(按照label 进行group by再操作)

0800集团:NLP学习实践新闻文本分类

0800集团今天有点晚了新闻消息分类,还有一点分析明天一起补上...


点击: 添加时间: 2022-08-16 17:01

0800集团|0800集团首页是一家0800集团品牌策划与设计的综合服务提供商,
0800集团坚持“以营销的理念做设计”的核心宗旨,
做最具品牌力、销售力、生命力的“营销型设计”!

官方微信
分享到: