[发明专利]一种对象分类方法及模型训练方法和装置有效
申请号: | 201910350249.8 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110188798B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 李盟;周俊 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F18/24 | 分类号: | G06F18/24;G06N20/10 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对象 分类 方法 模型 训练 装置 | ||
1.一种对象分类模型的训练方法,所述方法包括:
获取用于训练对象分类模型的标注样本,所述标注样本中包括:至少两个类别的对象;
基于所述标注样本训练得到所述对象分类模型;
利用所述对象分类模型,对真实样本进行分类预测,得到所述真实样本中所述至少两个类别的类别分布;
确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值;
若所述差异比较值超过差异阈值,根据所述真实样本的类别分布调整所述标注样本中的类别分布;
根据调整类别分布之后的所述标注样本,重新训练所述对象分类模型;
当所述对象是文本时,在所述基于所述标注样本训练得到所述对象分类模型之前,所述方法还包括:
对所述真实样本进行分词得到分词结果,所述标注样本是真实样本的子集;
根据分词结果,得到词与词向量之间的映射关系,并且,获得在分词结果中出现频次高于设定频次阈值的特征词表;
基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量;
所述基于所述映射关系和所述特征词表,对所述真实样本和标注样本中的每一个样本提取得到对应的特征向量,包括:
对所述每一个样本中出现在所述特征词表的词,进行编码,得到词特征;
根据所述映射关系,得到每一个样本中的各个词的词向量,并根据所述各个词的词向量确定所述样本的词嵌入特征;
将所述词嵌入特征和所述词特征进行拼接,得到所述样本的特征向量。
2.根据权利要求1所述的方法,所述特征词表中包括:单个词和双词。
3.根据权利要求1所述的方法,所述基于所述标注样本训练得到所述对象分类模型,包括:分别对所述标注样本中的至少两个类别的对象赋予类别权重,并基于所述类别权重训练所述对象分类模型;
所述确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值,包括:确定第一数值和第二数值之间的比值作为所述差异比较值,所述第一数值是所述标注样本的各个类别之间的样本数加权比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述调整所述标注样本中的类别分布,包括:若所述差异比较值超过所述差异阈值,则根据所述第二数值和所述标注样本中的各个类别的数量,调整所述标注样本的各个类别的类别权重。
4.根据权利要求1所述的方法,
所述确定所述真实样本的类别分布与标注样本的类别分布之间的差异比较值,包括:确定第三数值和第二数值之间的比值作为所述差异比较值,所述第三数值是所述标注样本的各个类别之间的样本数比值,所述第二数值是所述真实样本的各个类别之间的样本数比值;
所述调整所述标注样本中的类别分布,包括:若所述差异比较值超过所述差异阈值,则根据所述第二数值,通过过采样或欠采样的方式,调整所述标注样本的各个类别的样本数。
5.根据权利要求1所述的方法,当所述标注样本中的对象的类别是两个以上时;所述基于所述标注样本训练得到所述对象分类模型,包括:将所述两个以上的类别分为两组,第一组包括一个类别,其余类别作为第二组;将所述第一组和第二组分别作为一个类别,转换为二分类,训练所述对象分类模型;
当所述真实样本的类别分布与标注样本的类别分布之间的差异比较值符合差异阈值之后,继续对所述第二组划分为两个组,其中一个组包括一个类别,其余类别作为另一个组,并基于该两个组以二分类重新训练所述对象分类模型。
6.一种对象分类方法,所述方法包括:
获取待分类的对象集,所述对象集中包括至少两个类别的对象;
利用权利要求1~5任一所述的方法训练得到的对象分类模型,对所述对象集进行分类,得到分类完成的所述至少两个类别的对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910350249.8/1.html,转载请声明来源钻瓜专利网。