[发明专利]基于支持向量机树的事件分类方法与装置在审

申请号：	202111428718.7	申请日：	2021-11-25
公开（公告）号：	CN114037019A	公开（公告）日：	2022-02-11
发明（设计）人：	李鹏飞	申请（专利权）人：	中电云数智科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京尚钺知识产权代理事务所(普通合伙) 11723	代理人：	王海荣
地址：	430058 湖北省武汉市蔡甸区经济***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于支持向量事件分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于支持向量机树的事件分类方法与装置，该事件分类方法包括：利用自然语言预训练模型Bert对事件训练样本进行向量抽取，得到事件训练样本的表示向量，并利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗，得到训练样本集合；根据所述训练样本集合训练得到支持向量机树；利用自然语言预训练模型Bert对待分类事件样本进行向量抽取，得到待分类事件样本的表示向量，并利用所述支持向量机树对所述待分类事件样本的表示向量进行分类得到待分类事件样本的分类结果。本发明能提高事件分类的精度。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于支持向量机树的事件分类方法与装置。

背景技术

目前自然语言处理的预训练模型BERT的出现极大的促进了自然语言任务的快速发展，被广泛应用到各个自然语言处理的任务中，例如：智能问答，文本分类，语言翻译等等，但是由于BERT模型是在大规模语料上进行训练的，在下游任务中例如文本分类中存在两个问题：

1、针对样本数量较少的情况下，往往对专门领域效果的分类不佳。

2、目前大多直接利用BERT预训练模型通过一个线性分类器来做文本分类的算法都是在数据集较为干净且类别分布较为均衡上进行的，但是真实的工业数据往往无法满足这种数据分布，因此这种利用BERT预训练模型通过一个线性分类器来做文本分类的算法往往效果不够好。

发明内容

有鉴于此，本发明提供一种基于支持向量机树的事件分类方法与装置，提升分类精度。

第一方面，基于支持向量机树的事件分类方法，所述事件分类包括：利用自然语言预训练模型Bert对事件训练样本进行向量抽取，得到事件训练样本的表示向量，并利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗，得到训练样本集合；根据所述训练样本集合训练得到支持向量机树；利用自然语言预训练模型Bert对待分类事件样本进行向量抽取，得到待分类事件样本的表示向量，并利用所述支持向量机树对所述待分类事件样本的表示向量进行分类得到待分类事件样本的分类结果。

进一步地，所述利用自然语言预训练模型Bert对事件训练样本进行向量抽取，得到事件训练样本的表示向量的步骤包括：

使用下述公式1对事件训练样本进行向量抽取，得到事件训练样本的表示向量：

公式1

其中BERT代表自然语言预训练模型，X_i代表文本，V_i代表抽取后的表示向量。

进一步地，所述利用Kmeans算法以及余弦相似度对所述事件训练样本的表示向量进行数据清洗的步骤包括：

使用Kmeans算法根据预设的类别标签对事件训练样本的表示向量进行聚类；

根据每一聚类类别中每一表示向量的类别标签计算得到各聚类类别中各类别标签的计数值，并将各聚类类别中类别标签数量最多的类别标签作为各聚类类别的最终类别标签；

删除各聚类类别中所有类别标签不是对应聚类类别的类别标签的表示向量：

根据各聚类类别剩余的表示向量和类别描述的向量，计算各聚类类别的余弦相似度s，并基于各聚类类别的余弦相似度s，计算所有聚类类别的全局相似度阈值H；

删除余弦相似度s低于全局相似度阈值H的表示向量，得到训练样本集合。

进一步地，所述根据各聚类类别中各表示向量的类别标签计算得到对应聚类中各类别标签的计数值，并将对应聚类中类别标签数量最多的类别标签作为对应聚类的类别标签的步骤具体根据如下公式2以及公式3进行操作：

公式2