[发明专利]一种基于金字塔层级网络的嵌套实体检测方法有效
申请号: | 202010371816.0 | 申请日: | 2020-05-06 |
公开(公告)号: | CN111581957B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 寿黎但;王珏;陈珂;陈刚;骆歆远;伍赛;胡天磊 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 金字塔 层级 网络 嵌套 实体 检测 方法 | ||
1.一种基于金字塔层级网络的嵌套实体检测方法,其特征在于,所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成;所述编码层由词嵌入层和第一长短记忆神经网络,所述词嵌入层的输出端与第一长短记忆神经网络的输入端连接;所述解码层包括:第二长短记忆神经网络、卷积神经网络、全连接神经网络,所述第二长短记忆神经网络的输出端与卷积神经网络的输入端连接,卷积神经网络的输出端与全连接神经网络的输入端连接;所述嵌套实体检测方法包括以下步骤:
(1)将文本输入到金字塔层级网络,通过编码层,对输入文本中的单词编码为词向量;
(2)将编码后的词向量作为仅包含单个词的文本区域的表示,并将所述文本区域的表示输入到第一个解码层;
(3)对于输入的文本区域的表示,使用当前解码层的命名实体识别器检测每个文本区域是否为命名实体,若是则输出该文本区域对应的命名实体类型;若不是,则输出该文本区域对应的命名实体类型为空类型;
(4)对于经过当前解码层的命名实体识别器的文本区域的表示,使用当前解码层的卷积神经网络将相邻的文本区域的表示融合为新的文本区域的表示;
(5)将融合后的新的文本区域的表示输入到下一解码层;
(6)重复步骤(3)-(5),直到重复次数达到与预设的解码层数相同或重复次数达到与输入文本的长度相同;
(7)将每次获得的命名实体类型与正确的命名实体类型进行比较,计算损失值,并通过优化方法最小化该损失值,最终获得训练好的用于命名实体识别的金字塔层级网络;
(8)获取待检测文本,将待检测文本输入训练好的用于命名实体识别的金字塔层级网络,获得命名实体识别结果。
2.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(1)包括以下子步骤:
(1.1)输入文本包含单词,将文本输入到金字塔层及网络,通过词嵌入层先被映射到一个稠密的词向量,其中是词的词向量,是所述文本包含单词的数量;
(1.2)通过第一长短时记忆神经网络层来获得编码后的词向量:
其中,表示文本中第i个词的上下文相关表示,表示从左到右的上下文相关表示,表示从右到左的上下文相关表示,表示两个向量的连接。
3.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(3)包括以下子步骤:
(3.1)通过层标准化处理输入文本区域的表示,将处理前的文本区域的表示记为,处理后的文本区域的表示记为;
(3.2)通过第二长短时记忆神经网络层来获取上下文相关的文本区域的表示:
其中,表示第i个文本区域的上下文相关表示,表示从左到右的上下文相关表示,表示从右到左的上下文相关表示,表示两个向量的连接;若当前为第n层解码层,则实际表示从第i个单词开始到第i+n-1个单词结束的文本区域;
(3.3)将送入全连接神经网络,该全连接神经网络计算每个文本区域是某一特定类别命名实体的打分,其中包括有一个空类别表示该文本区域不是任何一个命名实体;
其中表示一个全连接神经网络;
(3.4)使用软最大化函数来对各个类别上的打分进行归一化,从而获得每个文本实体是某一特定命名实体类型的概率值:
其中表示从第i个单词开始到第i+n-1个单词结束的文本区域,表示命名实体类型的集合,表示命名实体类型集合所包含命名实体类型的数量,为一个命名实体类型满足,为自然对数函数的底数;
(3.5)选择概率值最高的命名实体类型作为输出的文本区域所对应的命名实体类型;其中包括用空类别表示该文本区域不是任何一个命名实体。
4.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(4)中相邻的文本区域的表示满足以下条件:
(1)两个文本区域的表示所对应的文本区域分别起始于第和个单词,结束于第和个单词;
(2);
(3)。
5.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(4)中融合为新的文本区域的表示,满足以下条件:
(1)输入的两个文本区域的表示所对应的文本区域分别起始于第和个单词,结束于第和个单词;
(2)融合的文本区域的表示所对应的文本区域起始于第个单词,结束于第个单词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010371816.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化结构力学实验平台拓展式杆系结构
- 下一篇:电子设备