[发明专利]一种基于类别不均衡的文本样本分类方法有效
申请号: | 202110114681.4 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112463972B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张发展;刘世林;罗镇权;祝凯 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲;王莹莹 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类别 均衡 文本 样本 分类 方法 | ||
本发明涉及一种基于类别不均衡的文本样本分类方法,包括以下步骤:将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器;将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果。本方案相比传统的依次二分类方法,提高了文本分类的效率,降低文本分类成本,并且也能达到对类别不均衡文本的准确分类。
技术领域
本发明涉及文本分类技术领域,特别涉及一种基于类别不均衡的文本样本分类方法。
背景技术
文本分类是指给文本数据(即样本)打上特定的标签,通常需要各个类别的训练样本尽量均衡,才能使文本数据被分类到确切的类别。但是实际数据分布往往存在不均衡的现象。比如,“事件”类别的样本数据中,“企业合作”的文本数据相比“企业破产”的文本数据会多很多。再比如,“体育”类别的样本数据中,有“篮球”、“足球”、“羽毛球”等样本,在不同的时期也会存在不均衡的现象。
现有对数据不均衡的处理方法有过采样或欠采样,过采样就是对文本数据量较少的类别进行多次采样;欠采样就是对文本数据较多的类别减少采样。但过采样会导致训练样本存在线性相关现象,欠采样会对收集的文本数据不充分利用。因此,现有对数据不均衡的处理方法还不成熟。
有学者使用二分类的方法对不均衡类别进行分类,是每次将待分类文本与一个少样本类别和一个多样本类别进行分类比较,下一次继续与另一少样本类别和另一多样本类别进行分类比较,这样使得分类效率极低。
发明内容
本发明的目的在于对不均衡样本数据进行分类,且提高分类效率,提供一种基于类别不均衡的文本样本分类方法。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
一种基于类别不均衡的文本样本分类方法,包括以下步骤:
将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器;
将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果。
在本方案中,对于文本分类中的类别不均衡的问题,特别是包含多个少样本类别时,类别不均衡的问题,首先对多个多样本作为一个整体进行训练得到第一分类器,再联合多个多样本类别的整体类别与多个少样本类别同时进行训练,得到第二分类器,将待分类样本输入第二分类器,如果输出结果为任一少样本类别,则说明该待分类样本属于该少样本类别,如果输出结果为多样本类别的整体类别,则说明该待分类样本属于任一多样本类别,则再将待分类样本输入第一分类器,输出的结果即为任一多样本类别。本方案可同时将待分类样本与所有的少样本类别和多个多样本类别合成的一个整体类别进行分类比较,解决了传统将待分类样本与每个少样本类别和每个多样本类别进行依次分类比较所带来的麻烦,降低了文本分类的成本,相比传统的依次二分类方法,提高了文本分类的效率,并且也能达到对类别不均衡文本的准确分类。
所述联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器的步骤,包括:
在每一个少样本类别中选取一个代表样本,则有N个代表样本;
将N个代表样本以向量的形式表示,作为N个少样本类别的向量,则有N个向量;
将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本;将N个多样本的代表样本以向量的形式表示,则有N个多样本的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110114681.4/2.html,转载请声明来源钻瓜专利网。