[发明专利]一种基于语义依赖的空间关系抽取方法及装置有效
申请号: | 202110506597.7 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113190655B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 于辛;丁文韬;瞿裕忠 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/284;G06F40/30;G06F18/241;G06N3/0455;G06N3/045;G06N3/048;G06N3/08 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 依赖 空间 关系 抽取 方法 装置 | ||
一种基于语义依赖的空间关系抽取方法及装置,构建语义依赖识别模型,从非结构化文本中抽取出空间关系元组,首先定义语义依赖类型,分别为包含触发词角色类型和不包含触发词角色类型;然后将待识别文本及预标注的空间元素输入基于深度自注意力网络的语义依赖识别模型,结合定义的语义依赖类型,得到空间元素间的所有语义依赖识别结果;最后将得到的语义依赖识别结果进行组合,输出完整的空间关系元组。本发明将空间关系抽取问题转化为语义依赖识别问题,可同时处理多种空间关系,包括包含触发词和不含触发词的空间关系;本发明可以有效表示文本中的空间语义信息,抽取出空间元素间的语义依赖,无须人工设计特征,泛化性能强,准确率高。
技术领域
本发明属于自然语言处理技术领域,涉及信息抽取技术,为一种基于语义依赖的空间关系抽取方法及装置。
背景技术
随着互联网信息产业的快速发展以及网络大数据时代的到来,网络数据增长迅速,人们期望能快速、高效地从海量数据中挖掘抽取出有用的信息。
文本中蕴含了丰富的空间信息。空间信息的含义比较广泛,一般反映了客观对象的空间分布特征的信息,例如自身的位置、空间结构以及与其他对象在空间分布上的关联。理解自然语言中的空间信息可以为不同领域的应用系统提供底层支撑,例如:对于问答系统,可以用于空间相关问题求解;对于知识图谱领域,从文本中抽取空间信息可用于补充知识图谱空间相关数据;对于地理信息系统,从文本中获取高质量的空间信息可以帮助扩充地理数据库。
目前在空间关系抽取领域目前已经开展了很多工作,德克萨斯大学人类语言技术研究所的研究人员提出一种基于sieve的抽取方法,其将空间关系分解为多个子关系,利用结合了句法树特征的一系列支持向量机分类器对子关系进行分类,但是训练分类器需要人工设计特征,效率低且可拓展性差;里斯本大学的研究人员尝试使用基于卷积神经网络的序列标注模型,对于给定文本首先识别出触发词,也称为空间关系词,然后将触发词和文本作为输入抽取出空间关系的其他角色,该方法存在的主要问题是无法处理不含触发词的空间关系,即隐式的空间关系;专利申请《一种水利空间关系词识别与提取的方法》(公开号CN110532553A),提出了一种基于弱监督的水利领域的空间关系词识别方法,通过种子集合挖掘空间关系模式,进而抽取出空间关系元组,该方法在处理过程中需要设计大量的词法语法规则和特征;专利申请《提取地理位置点空间关系的方法、训练提取模型的方法及装置》(公开号CN111737383A),提出了一种提取地理位置点空间关系的方法,建模为序列标注问题,对于给定地点,输出其空间位置信息,该方法也无法处理不含触发词的关系。
发明内容
针对现有方法的不足,本发明的目的是提供一种面向文本的无需人工设计特征、准确率高、通用性好、适用于多种空间关系的基于语义依赖的空间关系抽取方法,从非结构化的文本数据中抽取结构化的空间关系元组。
本发明的技术方案为:一种基于语义依赖的空间关系抽取方法,构建语义依赖识别模型,从非结构化文本中抽取出空间关系元组,包括以下步骤:
步骤1:定义语义依赖类型,分别为包含触发词角色类型和不包含触发词角色类型;
步骤2:构建基于深度自注意力网络的语义依赖识别模型,包括标签嵌入层、词嵌入层、编码层和解码层;将待识别文本及预标注的空间元素输入训练好的语义依赖识别模型,结合定义的语义依赖类型,得到空间元素间的所有语义依赖识别结果:
2.1)将待识别文本输入词嵌入层得到词向量;
2.2)将空间元素采用BIO标注方法进行标注,输入标签嵌入层,得到空间元素标签向量;
2.3)将2.1)得到的词向量和2.2)得到的空间元素标签向量进行拼接作为编码层的输入向量;
2.4)将2.3)得到的输入向量输入基于元素感知自注意力的编码层得到特征表示向量;
2.5)将2.4)输出的特征表示向量输入解码层得到空间元素间的语义依赖输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110506597.7/2.html,转载请声明来源钻瓜专利网。