[发明专利]分类规则获取方法及装置有效
申请号: | 202010537532.4 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111783995B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 王聪;沈承恩;杨善松 | 申请(专利权)人: | 海信视像科技股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 郭放;许伟群 |
地址: | 266555 山东省青*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 规则 获取 方法 装置 | ||
本申请提供的分类规则获取方法及装置,能够将经过SWEM模型分类后的数据作为样本数据,并且分别确定所有类别中的第一衡量指数和第二衡量指数最小的目标类别;第一衡量指数最小,说明该目标类别中的数据可分性差,第二衡量指数最小,说明该第二衡量指数对应的两个目标类别之间的可分性差。进而需要确定出这两个目标类别内重合的目标样本数据,并对目标样本数据的类别进行修改,以使其与其他类别明显区分,形成包含预设分类规则在内的新的分类规则。本申请的技术方案能够根据衡量指数确定需要修改类别的目标样本数据,形成更加具体和准确的分类规则,可应用于多版本迭代的数据集,适用范围比较广。
技术领域
本申请涉及计算机技术领域,尤其涉及一种分类规则获取方法及装置。
背景技术
随着人工智能的快速发展,机器学习和深度学习在分类任务中得到广泛应用,尤其是在自然语言处理任务中,例如:用户意图识别、垃圾邮件识别等。随着深度学习的发展,目前已经有多种基于深度学习的分类模型,例如:textCNN模型、Transformer模型和BERT模型等。
基于分类模型处理各种分类任务,是当前主要的数据分类方法。目前的数据分类处理流程主要包括:先根据业务类型或先验知识人为地建立多个分类标准,再根据不同的分类标准依次对数据集的类别进行划分,然后利用基于深度学习的分类模型对数据集进行机器分类,根据机器分类结果,依次验证数据集类别划分的结果,并对划分结果不理想的数据集的分类标准进行修改。
然而,上述这种数据分类方法,在满足业务需求的前提下,技术人员根据个人经验,会设计多种分类标准,在不知道哪种分类标准更合理的情况下,只有将所有分类标准下的数据都输入到分类模型,通过最后的机器分类结果进行衡量。可见,在这样的数据分类方式中,技术人员主观设计的分类标准针对于不同版本的数据集,并不能全部适用。
发明内容
本申请提供了一种分类规则获取方法及装置,以解决当前数据分类方法中分类标准适用范围小的问题。
第一方面,本申请提供了一种分类规则获取方法,包括:
利用SWEM模型将样本数据集表示成不同类别的样本数据,所述SWEM模型具有预设分类规则;
在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别,所述第一衡量指数用于衡量类别中样本数据的可分性,所述第二衡量指数用于衡量类别之间样本数据的可分性;
确定所述第一目标类别与所述第二目标类别中相互重合的目标样本数据;
结合所述预设分类规则,修改所述目标样本数据所归属的类别,形成新的分类规则。
本申请一些实施例中,在所有类别中确定第一衡量指数最小的第一目标类别,以及与所述第一目标类别之间具有最小第二衡量指数的第二目标类别的步骤包括:
分别计算出两两类别之间的第二衡量指数;
利用每个类别相关的所述第二衡量指数,计算出每个类别的第一衡量指数;
在所有类别中确定所述第一衡量指数最小的第一目标类别;
在所有类别中确定与所述第一目标类别相关的最小第二衡量指数对应的第二目标类别。
本申请一些实施例中,根据如下公式计算出两两类别之间的第二衡量指数:
其中,Sij表示类别i与类别j之间的第二衡量指数,Bij表示类别i与类别j之间的类间距离,Wi表示类别i的类内距离。
本申请一些实施例中,根据如下公式计算出类别i与类别j之间的类间距离Bij:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于海信视像科技股份有限公司,未经海信视像科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010537532.4/2.html,转载请声明来源钻瓜专利网。