[发明专利]文本分类号的确定方法、装置以及电子设备有效
申请号: | 201910969301.8 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110659367B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 韩红旗;翁梦娟;冉亚鑫;高雄;李琳娜;王莉军 | 申请(专利权)人: | 中国科学技术信息研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/93 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100038*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 确定 方法 装置 以及 电子设备 | ||
1.一种文本分类号的确定方法,其特征在于,包括:
将待分类文本分别输入第一分类模型以及第二分类模型,以获取通过所述第一分类模型得到的一级目标分类号以及通过所述第二分类模型得到的二级目标分类号;
将所述一级目标分类号与所述二级目标分类号进行匹配;
根据匹配结果,确定第三分类模型中的至少一个子分类模型,其中,子分类模型与目标级别分类号具有对应关系,所述目标级别分类号包括三级以及三级以下分类号中任一项;
将所述待分类文本分别输入至各子分类模型,并确定所述各子分类模型的第一参数计算结果;
根据所述第一参数计算结果,从所述至少一个子分类模型中确定目标子分类模型,并将所述目标子分类模型对应的目标级别分类号作为所述待分类文本的分类号。
2.根据权利要求1所述的方法,其特征在于,所述目标级别分类号包括第一分类号和第二分类号中任一项;
所述根据匹配结果,确定第三分类模型中的至少一个子分类模型,包括:
若所述匹配结果为所述一级目标分类号与所述二级目标分类号相匹配,则确定与所述二级目标分类号相匹配的至少一个第一分类号,并确定与所述至少一个第一分类号对应的至少一个子分类模型;
若所述匹配结果为所述一级目标分类号与所述二级目标分类号不相匹配,则确定与所述一级目标分类号相匹配的至少一个第二分类号,并确定与所述至少一个第二分类号对应的至少一个子分类模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一参数计算结果,从所述至少一个子分类模型中确定目标子分类模型,包括:
根据所述第一参数计算结果,确定最大的参数计算结果对应的子分类模型为所述目标子分类模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
训练得到第三分类模型,所述第三分类模型中包括各目标级别分类号对应的子分类模型;
所述子分类模型包括M个分类器以及融合分类器,对于一个目标级别分类号,所述训练得到所述目标级别分类号对应的子分类模型包括:
训练得到所述M个分类器,所述M为大于1的整数;
对于所述目标级别分类号下的各文本,基于训练得到的M个分类器,将各文本输入至所述M个分类器得到各文本的M个第二参数计算结果;
基于所述各文本的M个第二参数计算结果,训练得到所述融合分类器。
5.根据权利要求4所述的方法,其特征在于,所述训练得到M个分类器,包括:
获取所述目标级别分类号下的至少一个第三待训练文本;
对所述至少一个第三待训练文本进行处理;
基于处理后的所述至少一个第三待训练文本以及第三分类学习算法,训练得到M个分类器;
其中,所述第三分类学习算法包括机器学习算法以及深度学习算法中至少一项。
6.根据权利要求5所述的方法,其特征在于,所述基于处理后的所述至少一个第三待训练文本以及第三分类学习算法,训练得到M个分类器,包括:
对处理后的所述至少一个第三待训练文本抽样所述M次,得到所述M个正例数据集合;
基于所述M个正例数据集合与对应的所述M个负例数据集合,通过所述第三分类学习算法,训练得到对应的所述M个第三分类器;
其中,负例数据集合中的负例数据是从与所述目标级别分类号不同的其他目标级别分类号下的文本中进行抽样得到的。
7.根据权利要求4所述的方法,其特征在于,所述基于所述各文本的M个第二参数计算结果,训练得到融合分类器,包括:
将各文本的M个第二参数计算结果作为正例数据;
获取各文本对应的负例数据,所述负例数据与所述M个第二参数计算结果形成的所述正例数据对应;
基于各文本的正例数据和负例数据,训练得到融合分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术信息研究所,未经中国科学技术信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910969301.8/1.html,转载请声明来源钻瓜专利网。