[发明专利]一种基于梯度神经网络结构搜索的命名实体识别方法有效
申请号: | 202011212057.X | 申请日: | 2020-11-03 |
公开(公告)号: | CN112270194B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 杜权 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/044;G06N3/08 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 神经网络 结构 搜索 命名 实体 识别 方法 | ||
1.一种基于梯度神经网络结构搜索的命名实体识别方法,其特征在于包括以下步骤:
1)通过数据网站获取命名实体识别任务的常用数据集,并将其处理为适用于命名实体识别任务的conll格式;
2)利用循环神经网络和其他预训练词表获取数据中单词和字符的分布式表示,将其拼接后作为模型输入;
3)搭建命名实体识别任务的主体模型和循环计算单元搜索结构;
4)对循环计算单元内部的结构参数数值进行归一化处理;
5)对循环神经单元的操作权重矩阵和模型整体参数同时进行优化,在训练过程中对循环计算单元搜索结构内部和模型整体进行交替优化;
6)根据优化后得到的循环计算单元内部操作的权重差异,将连续化的结构表示转化为离散化的结构,从而确定搜索过程中的循环单元的内部结构;
7)使用搜索到的循环计算单元搭建循环神经网络并进一步搭建命名实体识别任务的完整模型结构,并对命名实体识别任务的完整模型结构参数初始化,使用训练数据重新进行训练和参数调优,最终训练到收敛为止;
8)使用训练收敛后的完整模型进行命名实体识别,并使用其在测试集上的准确度表征模型性能。
2.按权利要求1所述的基于梯度神经网络结构搜索的命名实体识别方法,其特征在于:在步骤3)中搭建基于双向循环神经网络的序列编码层和基于多头注意力的注意力推断层,具体为:
301)搭建双向循环神经网络作为序列编码层,提取步骤2)中获得的“模型输入”中的字词特征,其中双向循环神经网络中循环计算单元的具体结构与操作通过基于梯度的结构搜索技术获取,确定循环计算单元的搜索空间;
302)搭建基于多头注意力的注意力推断层,在推断层摒弃常规的条件随机场方法,利用多头注意力获取来自标签的信息;
303)将序列编码器结构和注意力推断层结构重复执行301)-302),循环神经网络的输入来自上一层序列编码器获取的隐藏状态和上一层注意力推断层获取的标签与隐藏状态经过注意力操作之后的结构拼接而成;
304)双向循环神经网络中的循环计算单元内部节点输出的计算公式为:
其中x(i)和x(j)分别代表节点i和节点j的输出,其中j>i,Wi是节点x(i)进行线性变换时对应的参数矩阵,的上标i、j说明节点x(i)和节点x(j)之间的激活操作权重,代表两个节点之间各个激活操作所占的比重,的下标k则代表第k个激活操作所占的比重,且有n代表操作种类的数量,ok(i,j)是节点i和节点j之间的第k个操作。
3.按权利要求1所述的基于梯度神经网络结构搜索的命名实体识别方法,其特征在于:在步骤4)中对循环计算单元内部的结构参数数值进行归一化处理,是针对循环计算单元内部结构中两个节点之间的所有潜在操作进行,最终得到每个操作在该位置上的重要性权重,计算公式如下:
上式中的是结构搜索过程中被初始化和真正需要优化的参数,在搜索结束后,对其进行上述归一化操作,得到节点x(i)和节点x(j)之间的激活操作权重θi,j。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011212057.X/1.html,转载请声明来源钻瓜专利网。