0800集团:NLP学习实践新闻文本分类
0800集团Day 1
背景:题目以自然语言处理为背景,要求根据新闻文本字符对新闻进行分类,是一个经典文本分类问题
数据:数据来源于互联网上的新闻新闻消息分类,通过收集并匿名处理得到(为了预防选手人工标注测试集的情况),匿名处理其实是对每个新闻文本进行分词新闻消息分类,然后对词进行编码新闻消息分类,最终的文本是一个编码后的列表)
0800集团新闻被整合划分为14个类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐
数据组成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。
0800集团思考:
后续的研究工作包括特征提取和文本分类两个部分,但是由于匿名化处理,中文词语到数字编码的过程中损失了许多信息,比如词性和上下文联系,同时分词的颗粒度也无法知晓(比如“不用加班”是一个词,还是 “不用”、“加班”两个词),所以初步考虑词频特征是首要的重要特征。该特征的提取有两种方法:
构建词频向量构建TD-IDF特征
Day 2 数据读取与预览
由于训练样本有20W新闻消息分类,本地内存甚至都无法完成词频统计,所以尝试使用了天池实验室的PAI-DSW,GPU跑起来就是爽,界面也十分友好。
(1)使用linux命令(以!开头即默认为linux命令)完成数据上传和解压
(2)读取数据、计算每条新闻长度
可以发现,训练集新闻样本长度参差不齐,明显右偏,平均长度为907,且97%的文本长度小于3000
(3)统计不同类别的新闻数目
(4)统计整篇训练集的词频
其中超高频词汇 3750、648、900很有可能是标点符号
5)统计每个类别的新闻的词频(按照label 进行group by再操作)
0800集团今天有点晚了新闻消息分类,还有一点分析明天一起补上...
点击: 添加时间: 2022-08-16 17:01
0800集团|0800集团首页是一家0800集团品牌策划与设计的综合服务提供商,
0800集团坚持“以营销的理念做设计”的核心宗旨,
做最具品牌力、销售力、生命力的“营销型设计”!