[发明专利]一种面向水利文本的嵌套实体识别方法在审

专利信息
申请号: 202210299216.7 申请日: 2022-03-25
公开(公告)号: CN114881030A 公开(公告)日: 2022-08-09
发明(设计)人: 冯钧;张涛;陆佳民 申请(专利权)人: 河海大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/242;G06F40/211;G06F40/30;G06N3/04;G06N3/08
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210024 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 水利 文本 嵌套 实体 识别 方法
【说明书】:

发明公开了一种面向水利文本的嵌套实体识别方法,首先,基于现有水利行业标准和第三方词库形成基础词典,并使用一种新词发现算法挖掘新词汇来扩充基础词典;其次,在词嵌入过程中,使用领域词典,将词汇的信息融入到字符表示,增强语义表示;然后,在编码过程中,使用双向长短时记忆网络进行特征提取;最后,在解码过程中,提出一种由外向内的解码方法,模型在预测到实体时,会自动寻找内部实体,直至内部不存在任何实体。本发明结合水利领域知识,在识别水利文本的嵌套实体时,取得了良好的效果。

技术领域

本发明属于嵌套实体识别,具体的涉及一种面向水利文本的嵌套实体识别方法。

背景技术

实体关系抽取是自然语言处理领域的关键任务之一,它可以从非结构化文本中自动抽取出结构化知识,将知识以这种格式存储到知识库,使得计算机可以理解,从而对知识图谱构建、智能问答系统和信息检索等下游应用起着至关重要的支撑作用。实体关系抽取包含着两个关键性任务,分别是命名实体识别(Name Entity Recognition,NER)和关系抽取(Relation Extraction,RE)。命名实体识别任务在最初将所有实体类型定义好,然后从文本提取所有实体,以及分配实体对应的类型标签,常见的实体类型标签有人名(LOC)、地名(LOC)、组织机构(ORG) 等。关系抽取任务是在命名实体识别任务的基础上,根据给定句子的语义,为实体对分配预先定义的关系类型。

2021年,国家明确提出要大力构建智慧水利体系,形成以数字驱动水利,智能决策特殊场景的体系结构。从此正式吹响了水利领域的振兴号角,促进了大数据、云计算、物联网等各行各业的先进技术与水利领域应用场景深度结合,推进了水利数字化、信息化地发展。在这样的持续性发展下,对底层数据支撑的要求也越来越高,从最初的单源数据即可满足数据要求,发展到现在的多源异构数据驱动,数据样式以及数据规模不断扩展,从最初的数据支撑转型到知识支撑。因此,如何自动化地抽取出水利文本数据中存在的知识显得尤为重要。

并且水利前沿应用离不开知识图谱的支持,而实体是水利知识图谱构建的基础。现阶段进行命名实体识别大多使用自监督模型,而自监督模型需要大量的有标签数据,但是水利领域数据相对较小,直接迁移现有模型很难取得良好的效果。水利领域实体具备一定的领域特殊性,并且实体内部可能会嵌套另一个实体,甚至是存在多层嵌套结构。因此,设计一种面向水利文本的嵌套实体识别方法是必然需要的。

发明内容

发明目的:为克服上述现有技术的不足,本发明提供一种面向水利文本的嵌套实体识别方法,在识别水利文本的嵌套实体时,取得了良好的效果。

技术方案:本发明提供一种面向水利文本的嵌套实体识别方法,包括以下步骤:

(1)基于现有水利行业标准和第三方词库形成基础词典,并使用一种新词发现算法挖掘新词汇来扩充基础词典;

(2)在词嵌入过程中,使用领域词典,将词汇的信息融入到字符表示,增强语义表示;

(3)在编码过程中,使用双向长短时记忆网络进行特征提取;

(4)在解码过程中,提出一种由外向内的解码方法,在预测到实体时,会自动寻找内部实体,直至内部不存在任何实体。

进一步地,所述步骤(1)包括以下步骤:

(11)利用信息熵和凝固度来挖掘新词汇,定位词典中的词汇出现在原始语料中的位置,计算信息熵来评判该词汇相邻字的丰富程度,信息熵小于20,则将该词汇与邻接字拼接形成新的词汇;

(12)当形成新的词汇,会计算该词汇的凝固度决定是否将词汇加入进词典,当凝固度大于1.25将词汇加入词典并对词典进行去重。

进一步地,所述步骤(2)包括以下步骤:

(21)将词汇信息融入字符表示,为每个字符保留根据词典获得到的所有可能的切分结果,对句子中的每个字符构建{B,M,E,S}词集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210299216.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top