[发明专利]一种面向水利文本的嵌套实体识别方法在审
申请号: | 202210299216.7 | 申请日: | 2022-03-25 |
公开(公告)号: | CN114881030A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 冯钧;张涛;陆佳民 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/211;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 水利 文本 嵌套 实体 识别 方法 | ||
本发明公开了一种面向水利文本的嵌套实体识别方法,首先,基于现有水利行业标准和第三方词库形成基础词典,并使用一种新词发现算法挖掘新词汇来扩充基础词典;其次,在词嵌入过程中,使用领域词典,将词汇的信息融入到字符表示,增强语义表示;然后,在编码过程中,使用双向长短时记忆网络进行特征提取;最后,在解码过程中,提出一种由外向内的解码方法,模型在预测到实体时,会自动寻找内部实体,直至内部不存在任何实体。本发明结合水利领域知识,在识别水利文本的嵌套实体时,取得了良好的效果。
技术领域
本发明属于嵌套实体识别,具体的涉及一种面向水利文本的嵌套实体识别方法。
背景技术
实体关系抽取是自然语言处理领域的关键任务之一,它可以从非结构化文本中自动抽取出结构化知识,将知识以这种格式存储到知识库,使得计算机可以理解,从而对知识图谱构建、智能问答系统和信息检索等下游应用起着至关重要的支撑作用。实体关系抽取包含着两个关键性任务,分别是命名实体识别(Name Entity Recognition,NER)和关系抽取(Relation Extraction,RE)。命名实体识别任务在最初将所有实体类型定义好,然后从文本提取所有实体,以及分配实体对应的类型标签,常见的实体类型标签有人名(LOC)、地名(LOC)、组织机构(ORG) 等。关系抽取任务是在命名实体识别任务的基础上,根据给定句子的语义,为实体对分配预先定义的关系类型。
2021年,国家明确提出要大力构建智慧水利体系,形成以数字驱动水利,智能决策特殊场景的体系结构。从此正式吹响了水利领域的振兴号角,促进了大数据、云计算、物联网等各行各业的先进技术与水利领域应用场景深度结合,推进了水利数字化、信息化地发展。在这样的持续性发展下,对底层数据支撑的要求也越来越高,从最初的单源数据即可满足数据要求,发展到现在的多源异构数据驱动,数据样式以及数据规模不断扩展,从最初的数据支撑转型到知识支撑。因此,如何自动化地抽取出水利文本数据中存在的知识显得尤为重要。
并且水利前沿应用离不开知识图谱的支持,而实体是水利知识图谱构建的基础。现阶段进行命名实体识别大多使用自监督模型,而自监督模型需要大量的有标签数据,但是水利领域数据相对较小,直接迁移现有模型很难取得良好的效果。水利领域实体具备一定的领域特殊性,并且实体内部可能会嵌套另一个实体,甚至是存在多层嵌套结构。因此,设计一种面向水利文本的嵌套实体识别方法是必然需要的。
发明内容
发明目的:为克服上述现有技术的不足,本发明提供一种面向水利文本的嵌套实体识别方法,在识别水利文本的嵌套实体时,取得了良好的效果。
技术方案:本发明提供一种面向水利文本的嵌套实体识别方法,包括以下步骤:
(1)基于现有水利行业标准和第三方词库形成基础词典,并使用一种新词发现算法挖掘新词汇来扩充基础词典;
(2)在词嵌入过程中,使用领域词典,将词汇的信息融入到字符表示,增强语义表示;
(3)在编码过程中,使用双向长短时记忆网络进行特征提取;
(4)在解码过程中,提出一种由外向内的解码方法,在预测到实体时,会自动寻找内部实体,直至内部不存在任何实体。
进一步地,所述步骤(1)包括以下步骤:
(11)利用信息熵和凝固度来挖掘新词汇,定位词典中的词汇出现在原始语料中的位置,计算信息熵来评判该词汇相邻字的丰富程度,信息熵小于20,则将该词汇与邻接字拼接形成新的词汇;
(12)当形成新的词汇,会计算该词汇的凝固度决定是否将词汇加入进词典,当凝固度大于1.25将词汇加入词典并对词典进行去重。
进一步地,所述步骤(2)包括以下步骤:
(21)将词汇信息融入字符表示,为每个字符保留根据词典获得到的所有可能的切分结果,对句子中的每个字符构建{B,M,E,S}词集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210299216.7/2.html,转载请声明来源钻瓜专利网。