[发明专利]新闻分类方法、计算机可读存储介质在审
申请号: | 202010880325.9 | 申请日: | 2020-08-27 |
公开(公告)号: | CN112131384A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 章恒靖;刘琦;邱枫;乔正宇;郑维;徐鹏;朱得元;刘恒昌 | 申请(专利权)人: | 科航(苏州)信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/02;G06N3/08 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 王小蓓 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 分类 方法 计算机 可读 存储 介质 | ||
1.一种新闻分类方法,其特征在于,包括:
获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;
确定各个所述新闻类别下的新闻文本的总体数量;
当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;
分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。
2.如权利要求1所述的新闻分类方法,其特征在于,所述新闻分类方法还包括:
将待分类的新闻文本输入训练后的BERT模型中进行分类。
3.如权利要求2所述的新闻分类方法,其特征在于,所述新闻分类方法还包括:
按照分类结果在前端展示新闻文本。
4.如权利要求1所述的新闻分类方法,其特征在于,获取原始数据包括:通过编写爬虫脚本的方式获取所述原始数据。
5.如权利要求1所述的新闻分类方法,其特征在于,当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理包括:
对该新闻类别下的各个新闻文本分别进行一次或多次重构从而生成多个新的新闻文本。
6.如权利要求5所述的新闻分类方法,其特征在于,对某一新闻类别下的某个新闻文本进行一次重构包括:
对新闻文本进行分句处理;
将每个句子分为多个词组;
将每个句子分出的多个词组打乱后重新排列,拼接成新的句子;以及
将所述新的句子进行拼接,从而构成一篇新的新闻文本。
7.如权利要求6所述的新闻分类方法,其特征在于,将每个句子分为多个词组包括:
采用结巴中文分词方法对中文句子进行分割转化从而提取出多个中文词组。
8.如权利要求1所述的新闻分类方法,其特征在于,所述BERT模型是基于transformer架构实现,将所述训练数据输入BERT模型中进行训练包括;
基于Masked LM任务以及下一句预测任务对所述BERT模型进行预训练;以及
将所述训练数据输入所述BERT模型中,对所述BERT模型进行微调从而使得所述BERT模型与所述训练数据相匹配。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质用于执行如权利要求1~8任一所述的新闻分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科航(苏州)信息科技有限公司,未经科航(苏州)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880325.9/1.html,转载请声明来源钻瓜专利网。