[发明专利]新闻分类方法、计算机可读存储介质在审
申请号: | 202010880325.9 | 申请日: | 2020-08-27 |
公开(公告)号: | CN112131384A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 章恒靖;刘琦;邱枫;乔正宇;郑维;徐鹏;朱得元;刘恒昌 | 申请(专利权)人: | 科航(苏州)信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/02;G06N3/08 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 王小蓓 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 分类 方法 计算机 可读 存储 介质 | ||
本发明公开了一种新闻分类方法以及计算机可读存储介质,其包括:获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;确定各个所述新闻类别下的新闻文本的总体数量;当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。该新闻分类方法以及计算机可读存储介质能够提高分类的准确度。
技术领域
本发明是关于人工智能技术领域,特别是关于一种新闻分类方法、计算机可读存储介质。
背景技术
近年来,随着计算机技术和网络通信技术的高速发展,电视、广播、报纸等传统获取信息的方式已不再是人们获取信息的主要方式,人们开始更多关注网络新闻。互联网所容纳的信息量大、内容丰富、信息及时、准确、更有相关信息的全面介绍与比较,更加能满足人们对于信息的需求。但也正是随着互联网技术的发展和智能设备的高度普及,信息爆炸已经成为了一个越来越棘手的问题,如何在海量的各行业资讯中帮助各类人准确、快速地获取到有价值的信息成为了一个迫切需要解决的热点问题。
目前通常是采用传统的机器学习进行文本分类,整个文本分类问题就拆分成了特征工程和分类器两部分,大部分机器学习方法都在文本分类领域有所应用,比如朴素贝叶斯分类算法(Bayes)、KNN(K最近邻分类算法)、SVM(支持向量机)、最大熵和神经网络等等。发明人在实现本发明的过程中发现,目前机器学习的这种方式分类准确度较差。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种新闻分类方法、计算机可读存储介质,其能够提高分类的准确度。
为实现上述目的,本发明提供了一种新闻分类方法,其包括:获取原始数据,其中,所述原始数据包括新闻文本以及新闻类别;确定各个所述新闻类别下的新闻文本的总体数量;当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理从而使得处理后的该新闻类别下的新闻文本的总体数量不低于所述预设阈值;分别从每个所述新闻类别下的所有新闻文本中筛选出与所述预设阈值相同数量的新闻文本作为训练数据输入BERT模型中进行训练。
在本发明的一实施方式中,所述新闻分类方法还包括:将待分类的新闻文本输入训练后的BERT模型中进行分类。
在本发明的一实施方式中,所述新闻分类方法还包括:按照分类结果在前端展示新闻文本。
在本发明的一实施方式中,获取原始数据包括:通过编写爬虫脚本的方式获取所述原始数据。
在本发明的一实施方式中,当某个所述新闻类别下的新闻文本的总体数量少于预设阈值,则对该新闻类别下的新闻文本进行数据增强处理包括:对该新闻类别下的各个新闻文本分别进行一次或多次重构从而生成多个新的新闻文本。
在本发明的一实施方式中,对某一新闻类别下的某个新闻文本进行一次重构包括:对新闻文本进行分句处理;将每个句子分为多个词组;将每个句子分出的多个词组打乱后重新排列,拼接成新的句子;将所述新的句子进行拼接,从而构成一篇新的新闻文本。
在本发明的一实施方式中,将每个句子分为多个词组包括:采用结巴中文分词方法对中文句子进行分割转化从而提取出多个中文词组。
在本发明的一实施方式中,所述BERT模型是基于transformer架构实现,将所述训练数据输入BERT模型中进行训练包括;基于Masked LM任务以及下一句预测任务对所述BERT模型进行预训练;将所述训练数据输入所述BERT模型中,对所述BERT模型进行微调从而使得所述BERT模型与所述训练数据相匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科航(苏州)信息科技有限公司,未经科航(苏州)信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880325.9/2.html,转载请声明来源钻瓜专利网。