[发明专利]基于支持向量机树的事件分类方法与装置在审
申请号: | 202111428718.7 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114037019A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 李鹏飞 | 申请(专利权)人: | 中电云数智科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京尚钺知识产权代理事务所(普通合伙) 11723 | 代理人: | 王海荣 |
地址: | 430058 湖北省武汉市蔡甸区经济*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 支持 向量 事件 分类 方法 装置 | ||
1.一种基于支持向量机树的事件分类方法,其特征在于,所述事件分类方法包括:
利用自然语言预训练模型Bert对事件训练样本进行向量抽取,得到事件训练样本的表示向量,并利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗,得到训练样本集合;
根据所述训练样本集合训练得到支持向量机树;
利用自然语言预训练模型Bert对待分类事件样本进行向量抽取,得到待分类事件样本的表示向量,并利用所述支持向量机树对所述待分类事件样本的表示向量进行分类得到待分类事件样本的分类结果。
2.根据权利要求1所述的事件分类方法,其特征在于,所述利用自然语言预训练模型Bert对事件训练样本进行向量抽取,得到事件训练样本的表示向量的步骤包括:
使用下述公式1对事件训练样本进行向量抽取,得到事件训练样本的表示向量:公式1
其中BERT代表自然语言预训练模型,Xi 代表文本,Vi代表抽取后的表示向量。
3.根据权利要求2所述的事件分类方法,其特征在于,所述利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗的步骤包括:
使用Kmeans算法根据预设的类别标签对事件训练样本的表示向量进行聚类;
根据每一聚类类别中每一表示向量的类别标签计算得到各聚类类别中各类别标签的计数值,并将各聚类类别中类别标签数量最多的类别标签作为各聚类类别的最终类别标签;
删除各聚类类别中所有类别标签不是对应聚类类别的类别标签的表示向量:
根据各聚类类别剩余的表示向量和类别描述的向量,计算各聚类类别的余弦相似度s,并基于各聚类类别的余弦相似度s,计算所有聚类类别的全局相似度阈值H;
删除余弦相似度s低于全局相似度阈值H的表示向量,得到训练样本集合。
4.根据权利要求2所述的事件分类方法,其特征在于,所述根据各聚类类别中各表示向量的类别标签计算得到对应聚类中各类别标签的计数值,并将对应聚类中类别标签数量最多的类别标签作为对应聚类的类别标签的步骤具体根据如下公式2以及公式3进行操作:
公式2
公式3
其中,label(Vi)代表每个表示向量本身的类别标签,count(label(Vi))为计算各聚类类别中每个类别标签的个数Cli,max(Cli)代表求取各聚类类别中个数最多的类别标签作为Ci,Ci作为对应聚类的最终类别标签。
5.根据权利要求4所述的事件分类方法,其特征在于,所述基于各聚类类别的余弦相似
度s,计算所有聚类类别的全局相似度阈值H的步骤具体根据如下公式4进行操作:
公式4
其中s为所有相似度的值,c(s)为相似度值为s的样本个数,c(T)为训练样本的总个数。
6.根据权利要求5所述的事件分类方法,其特征在于,所述支持向量机树中支持向量机
的数量为M,表示为:
M=(N(N-1))
其中N为支持向量机树的深度。
7.根据权利要求6所述的事件分类方法,其特征在于,利用所述支持向量机树对所述待
分类事件样本的表示向量进行分类得到待分类事件样本的分类结果的步骤包括:
将所述支持向量机树中的支持向量机进行分组,每组支持向量机的数量大于2个,各组
支持向量机的分类结果相同的数量小于2个时,判断各组支持向量机的分类结果相同的数量均小于2个的组数是否大于所述支持向量机树中各组支持向量机的总组数的1/3;
在各组支持向量机的分类结果相同的数量均小于2个的组数大于所述支持向量机树中各
组支持向量机的总组数的1/3时,将待分类事件样本的表示向量与Kmeans产生的每个聚类类别的中心向量计算相似度,将相似度最大的中心向量的类别标签作为待分类事件样本的类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电云数智科技有限公司,未经中电云数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111428718.7/1.html,转载请声明来源钻瓜专利网。