[发明专利]基于关联记忆网络的中文细粒度命名实体识别方法及装置在审
申请号: | 202011344221.2 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112883732A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 孙成胜;饶志宏;张焱;王伟;童炜 | 申请(专利权)人: | 中国电子科技网络信息安全有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610207 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关联 记忆 网络 中文 细粒度 命名 实体 识别 方法 装置 | ||
本发明公开了一种基于关联记忆网络的中文细粒度命名实体识别方法及装置,包括输入层进行记忆句子的选择,计算输入句子和训练集中句子的距离,将训练集中与输入句子距离最近的几个句子作为记忆句子;嵌入层对输入句子和记忆句子中的字符进行上下文编码,并将记忆句子的实体标签转换为标签序列,进行标签嵌入;关联记忆网络计算输入句子中每个字符和记忆句子中每个字符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序列表示中;多头自注意层、条件随机场层和输出层。本发明对融入了标签信息的字符表示进行重新编码,增加了实体识别的效果;实验结果表明,本发明的模型在细粒度命名实体识别任务中取得了更好的效果。
技术领域
本发明涉及自然语言处理领域,更为具体的,涉及一种基于关联记忆 网络的中文细粒度命名实体识别方法及装置。
背景技术
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定 义的细粒度类别中;命名实体识别是自然语言处理中的信息抽取任务之一, 其目的是对文本中特定类别的实体进行定位和分类。大多数命名实体识别 任务中只识别人名、组织、地点等实体类别,识别的实体类别少,并且类 别划分的比较宽泛;然而,细粒度命名实体识别更符合现实世界的知识体 系,在一些常见类别的基础上做了近一步的类别划分,需要识别的实体种类远多于一般的命名实体识别,这样从文本中抽取的实体就拥有了一个更 详细的定义,对下游的知识图谱的构建和问答任务提供更有力的支撑。
在细粒度命名实体识别中,更细粒度的划分会造成各实体类别在语义 上呈现出更紧密的距离;模型对语义相近类别的实体进行分类时,容易发 生混淆,这意味着细粒度实体类别的区分更具有挑战性。目前,中文公开 的高质量细粒度命名实体识别的数据集很少,CLUENER2020数据集包含 10种不同的实体类别,并对一些常见类别进行了细粒度的划分,如从“地点” 中分离出来了“景点”,从“组织”中分离出了“政府”和“公司”,这就造成“地点”和“景点”之间,“组织”、“政府”和“公司”之间的混淆程度较高;同时存 在同一实体在不同语境下属于不同类别的情况,如“游戏”可以是一些“书籍” 和“电影”的改编。
如表1所示,实体“《黑暗之塔》”在第一个句子中属于“游戏”类别,在 第二和第三个句子中属于“书籍”。在这种情况下,对实体类别的区分需要 结合上下文语境,同时也给“游戏”、“书籍”和“电影”实体类别之间的区分造 成混淆。Xu等人使用bilstm-crf和预训练语言模型在该数据集上进行实验, 相同的模型在其他数据集上的f1值可以达到95,然而在该数据集上最好的 效果只能达到80左右,这是因为细粒度数据集的句子中经常存在多个类别 的实体,模型在预测时会出现一些实体类别的丢失,同时模型对一些类别 的区分能力也存在一定的限制,导致细粒度命名实体识别任务更具有挑战 性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于关联记忆网络 的中文细粒度命名实体识别方法及装置,解决了现有细粒度命名实体识别 方案中存在的不足。
本发明的目的是通过以下方案实现的:
基于关联记忆网络的中文细粒度命名实体识别方法,其特征在于,包 括步骤:
S1,给定输入句子S,计算输入句子S和训练集中句子的距离,将训练 集中与输入句子S距离最近的几个句子作为记忆句子;
S2,对输入句子S和记忆句子中的字符进行上下文编码,并将记忆句子 的实体标签转换为标签序列,进行标签嵌入;
S3,通过关联记忆网络计算输入句子S中每个字符和记忆句子中每个字 符的注意力矩阵,并与记忆句子对应的标签嵌入相乘,将标签信息融入序 列表示中;
S4,通过多头自注意机制结合句子任意位置之间的相互关注,对融入 了标签信息的序列表示进行重新编码;
S5,通过条件随机场学习各实体标签之间的规则,再使用维特比算法 输出概率最高的标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技网络信息安全有限公司,未经中国电子科技网络信息安全有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011344221.2/2.html,转载请声明来源钻瓜专利网。