[发明专利]分类规则获取方法及装置有效
申请号: | 202010537532.4 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111783995B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 王聪;沈承恩;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 郭放;许伟群 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 规则 获取 方法 装置 | ||
1.一种分类规则获取方法,其特征在于,包括:
利用SWEM模型将样本数据集表示成不同类别的样本数据,所述SWEM模型具有预设分类规则;所述样本数据集为文本数据集,所述样本数据为文本数据;
将所述不同类别的样本数据进行验证,在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;
计算第一目标类别中样本数据和第二目标类别中样本数据的相似度,根据相似度确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;
根据所述第一目标类别与所述第二目标类别中相互重合的目标样本数据确定验证结果;
如果目标样本数据重合度大于设定阈值,则确定所述验证结果不理想;
结合所述预设分类规则,修改所述目标样本数据所归属的类别,得到包含预设分类规则在内的优化后的分类规则;
根据优化后的分类规则设置SWEM模型的模型参数;
所述SWEM模型根据优化后的分类规则对数据集进行分类;
其中,利用SWEM模型将样本数据集表示成不同类别的样本数据的步骤包括:
将样本数据集划分成若干个短文本;
对所述短文本进行分词处理,得到若干个词;
将每个词表示成词向量;
将所述样本数据集以词向量的形式输入到所述SWEM模型中,获得不同类别的样本数据,所述样本数据为SWEM模型输出的稠密向量。
2.根据权利要求1所述的方法,其特征在于,在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别的步骤包括:
分别计算出两两类别之间的第二衡量指数;
利用每个类别相关的所述第二衡量指数,计算出每个类别的第一衡量指数;
在所有类别中确定所述第一衡量指数最小的第一目标类别;
在所有类别中确定与所述第一目标类别相关的最小第二衡量指数对应的第二目标类别。
3.根据权利要求2所述的方法,其特征在于,根据如下公式计算出两两类别之间的第二衡量指数:
其中,表示类别与类别之间的第二衡量指数,表示类别与类别之间的类间距离,表示类别的类内距离。
4.根据权利要求3所述的方法,其特征在于,根据如下公式计算出类别与类别之间的类间距离:
其中,表示类别的均值向量,表示类别的均值向量。
5.根据权利要求3所述的方法,其特征在于,根据如下公式计算出类内距离:
其中,表示类别中第个样本数据,表示类别的均值向量。
6.根据权利要求3所述的方法,其特征在于,根据如下公式计算出每个类别的第一衡量指数:
其中,表示类别的第一衡量指数,表示类别数量,表示类别中的样本数据的数量。
7.根据权利要求2所述的方法,其特征在于,利用每个类别相关的所述第二衡量指数,计算出每个类别的第一衡量指数之后,还包括:计算出整个样本数据集的数据集衡量指数。
8.根据权利要求7所述的方法,其特征在于,根据如下公式计算数据集衡量指数:
其中,表示数据集衡量指数,表示类别的第一衡量指数,表示类别数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010537532.4/1.html,转载请声明来源钻瓜专利网。