[发明专利]不均衡样本分类方法、装置、电子设备及存储介质在审

申请号：	202110474617.7	申请日：	2021-04-29
公开（公告）号：	CN113139381A	公开（公告）日：	2021-07-20
发明（设计）人：	谢攀	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/211;G06K9/62
代理公司：	深圳市赛恩倍吉知识产权代理有限公司 44334	代理人：	杨毅玲;刘丽华
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	均衡样本分类方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及大数据技术领域，提供一种不均衡样本分类方法、装置、电子设备及存储介质，所述方法包括：获取目标标签；将目标标签的舆情新闻划分为正样本数据集和负样本数据集；对正样本数据集进行样本合成得到目标正样本数据集，及对负样本数据集进行层次聚类得到目标负样本数据集；对目标正样本数据集和目标负样本数据集采用预设的损失函数，训练分类模型；将舆情新闻输入训练好的分类模型中进行样本分类，得到样本分类结果。本发明通过对重新构建后的目标正样本数据集和目标负样本数据集，采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，解决了随机采样造成的分类样本不均衡的问题，提高了分类准确率。

技术领域

本发明涉及大数据技术领域，具体涉及一种不均衡样本分类方法、装置、电子设备及存储介质。

背景技术

目前网络舆情的影响越来越大，爬取的舆情数据量很大，一般采用随机取样方法选取正样本数据和负样本数据，在采用随机取样过程中，可能出现数据分类不均衡的现象，现有技术通过采用随机过采样和随机欠采样解决样本不均衡的问题。

然而，随机过采样容易出现少数类样本多次复制，增加了模型复杂度；随机欠采样会丢弃一部分原始样本，可能会损失部分有用的信息，造成模型偏离样本原始分布，上述两种方式都会导致训练出的分类模型的分类准确率低。

因此，有必要提供一种快速准确的不均衡样本分类的方法。

发明内容

鉴于以上内容，有必要提出一种不均衡样本分类方法、装置、电子设备及存储介质，通过对重新构建后的目标正样本数据集和目标负样本数据集，采用预设的损失函数重新训练分类模型，均衡了样本数据集中的数据量，解决了随机采样造成的分类样本不均衡的问题，提高了分类准确率。

本发明的第一方面提供一种不均衡样本分类方法，所述方法包括：

接收舆情新闻的样本分类请求，解析所述样本分类请求获取目标标签；

爬取所述目标标签对应的舆情新闻，将所述舆情新闻划分为正样本数据集和负样本数据集，其中，正样本数据集中的数据量小于负样本数据集中的数据量；

对所述正样本数据集进行样本合成得到目标正样本数据集，及对所述负样本数据集进行层次聚类得到目标负样本数据集；