[发明专利]一种基于类别不均衡的文本样本分类方法有效
申请号: | 202110114681.4 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112463972B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张发展;刘世林;罗镇权;祝凯 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲;王莹莹 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类别 均衡 文本 样本 分类 方法 | ||
1.一种基于类别不均衡的文本样本分类方法,其特征在于:包括以下步骤:
将M个多样本类别作为一个类别整体进行训练,得到第一分类器;联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器;
将待分类样本输入第二分类器,输出第一次分类结果;若第一次分类结果与少样本类别相似,则直接输出本次分类结果为最终分类结果;若第一次分类结果与多样本类别相似,则将待分类样本再输入第一分类器,输出第二次分类结果为最终分类结果;
所述将M个多样本类别作为一个类别整体进行训练,得到第一分类器的步骤,包括:
使用预训练模型bert fine-tuning对M个多样本类别进行训练,将[cls]作为特殊标记输入bert,将tok作为输入样本进行分词后的单词输入bert,[cls]、tok以向量表示为E_[cls]、E_tok;经过bert后单词的向量表示为C、T_tok1,将[cls]的向量C输入到全连接层FC进行分类,从而得到训练后的第一分类器。
2.根据权利要求1所述的一种基于类别不均衡的文本样本分类方法,其特征在于:所述联合M个多样本类别形成的一个类别整体和N个少样本类别进行训练,得到第二分类器的步骤,包括:
在每一个少样本类别中选取一个代表样本,则有N个代表样本;
将N个代表样本以向量的形式表示,作为N个少样本类别的向量,则有N个向量;
将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本;将N个多样本的代表样本以向量的形式表示,则有N个多样本的向量;
对N个多样本的向量求均值,得到M个多样本类别形成的一个类别整体的向量。
3.根据权利要求2所述的一种基于类别不均衡的文本样本分类方法,其特征在于:所述在每一个少样本类别中选取一个代表样本的步骤,包括:
将每一个少样本类别中的抽样样本以向量编码的形式表示,求抽样样本的向量编码的均值,将最接近该均值的向量编码所对应的样本作为该少样本类别的代表样本。
4.根据权利要求2所述的一种基于类别不均衡的文本样本分类方法,其特征在于:所述将M个多样本类别中的抽样样本分别与少样本类别的N个代表样本做比较,得到N个多样本的代表样本的步骤,包括:
将M个多样本类别中的抽样样本以向量编码的形式表示,将抽样样本的向量编码分别与少样本类别中每一个代表样本的向量做差值,并对这些差值求均值,得到M个多样本类别作为一个类别整体时,相对于每一个少样本类别的代表样本,则有N个相对于少样本类别的代表样本。
5.根据权利要求2所述的一种基于类别不均衡的文本样本分类方法,其特征在于:所述将待分类样本输入第二分类器,输出第一次分类结果的步骤,包括:
将所述待分类样本以向量的形式表示为待分类样本向量;
将所述待分类样本向量与N个少样本类别的向量以及M个多样本类别形成的一个类别整体的向量进行比较,输出与该待分类样本最接近的向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110114681.4/1.html,转载请声明来源钻瓜专利网。