[发明专利]一种基于聚类与预训练模型结合的命名实体识别方法在审
申请号: | 202110602241.3 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113283242A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 朱磊;吴江浩;黑新宏;王一川;姬文江 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 结合 命名 实体 识别 方法 | ||
1.一种基于聚类与预训练模型结合的命名实体识别方法,其特征在于,首先对Bert的结果提取其中的每个词的特征向量;在进行对特征向量的首次迭代时,通过Canopy算法确定往后计算的聚类的簇个数K与迭代的初始点,避免了人为确定簇个数与随机选择迭代初始点时对程序运行效率与运行结果产生的影响;通过不断迭代运算,最终确定K个簇中的个个节点集,将节点集返回结果与Bert结果中的[CLS]结合,从而得到一个结合了Topic类别标记的Bert训练模型,并在运用训练后的参数进行NER时中提高识别效率和准确性。
2.具体操作步骤如下:
步骤1,模型的预训练语义段落来源于中文Wikipedia数据库,先从中文Wikipedia数据库中爬取数据;
步骤2,对步骤1中的数据进行数据清洗,制作成训练可用的数据集保存在数据库中;
步骤3,配置Bert的模型参数包括初始学习率,隐藏层个数,自注意力头数,Encoder-Decoder层数,全连接层维度;
步骤4,调用步骤3中完成基本参数配置后的Bert模型,同时将步骤2中存储在数据库中的预训练数据集作为Bert模型的输入,运行Bert模型并在成功产生输出结果后保存Bert的结果中的高维特征向量的结果并将高维特征向量结果放在数据库中;
步骤5,利用Canopy粗聚类算法与步骤4中词性的高维数据向量确定初始聚类簇数目K与中心节点集合Canopy;
步骤6,将步骤5中,中心节点集合Canopy为聚类的K个初始点;
步骤7,计算每个在步骤4中得出的的高维特征向量到K个中心点的欧氏距离;
步骤8,对步骤7中的欧式距离结果按照距离中心点最小距离原则对所有高维特征向量进行分簇;
步骤9,采用误差平方和目标函数对一个簇内所有节点求平均值C,C就为下次迭代时中心节点;
步骤10,重复步骤7,步骤8,步骤9直到中心节点位置收敛即可;
步骤11,依据聚类的K个类别将数据进行划分并标记Topic;
步骤12,将步骤11的划分结果与Bert模型的输出中FinalLayer的句子开始标签[CLS]的向量进行组合并重新回送到输出序列中;
步骤13,对完成步骤12后的新的TopicBert进行NER任务的测试与运行,通过改进的TopicBert模型在处理NER任务上比原先的Bert模型的效率和准确性有明显的提升。
3.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤4中,Bert模型的输出是一个与上下文相关的一个字向量矩阵,其中[CLS]为句子的开始表示符,用于对句子的进行分类与运行。
4.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤5中,采取先进行粗聚类算法以确定一个聚类簇数K,并且初始节点的选取合理性决定了后面运算的效率,我们用Canopy来确定初始的中心节点;Canopy的两个阈值T1,T2。T1用于确定两个中心点之间距离,T2用于确认每个簇中的节点个数,两个阈值就能确定数据集中大概的分类个数与合理的起始点,便于提高效率。
5.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤7中,计算欧式距离得到了两个特征向量之间的相似度。
6.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤8中,距离中心最小原则的目的就是得到和中心节点相关程度高的一系列节点,对其进行分类,形成一个Topic来代表这个簇中元素。
7.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于所述步骤9中,所述目标函数具体为将寻找中心节点的问题化为一个多元线性规划问题,目的函数明确并且对SSE求偏导后发现中心节点就是一个簇中每个节点之和的平均值C就为下次迭代时中心点。直到中心节点在迭代时收敛就能认为聚类已经结束。
8.根据权利要求2所述的一种基于机器学习与Bert模型结合的命名实体识别方法,其特征在于,所述步骤12中,由于[CLS]在每个句子的唯一性存在,将聚类产生的topic与Bert模型相结合可以大幅提高命名实体识别过程中的识别效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110602241.3/1.html,转载请声明来源钻瓜专利网。