[发明专利]基于预训练语言模型与文本特征融合的空间关系抽取方法有效

专利信息
申请号: 202111338542.6 申请日: 2021-11-12
公开(公告)号: CN114528368B 公开(公告)日: 2023-08-25
发明(设计)人: 张雪英;吴恪涵;王益鹏 申请(专利权)人: 南京师范大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F16/35;G06F40/253;G06F40/30;G06N3/0499;G06N3/09
代理公司: 南京锐恒专利代理事务所(普通合伙) 32506 代理人: 陈思
地址: 210046 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 训练 语言 模型 文本 特征 融合 空间 关系 抽取 方法
【说明书】:

发明公开了基于预训练语言模型和文本特征融合的空间关系抽取方法,首先对文本数据进行清洗和预处理,利用预训练语言模型实现单条或批量文本数据向低维字向量的转化,保证不同长度的文本数据转化而来的低维字向量维度能保持一致;然后由前馈神经网络构成的二分类器和字向量预测文本中地理实体、空间关系特征词的开始与结束位置,并依据开始、结束位置和字向量表示,通过池化方法来生成字符跨度表示;最后依据字符跨度表示来进行地理实体识别和空间关系分类两项任务,进而实现文本空间关系抽取。本发明很好地顾及了地理实体类型、空间关系特征词与空间关系抽取的关联关系,实现了面向文本的三元组形式空间关系抽取,具有较好的拓展性和普适性。

技术领域

本发明属于自然语言处理与地理大数据挖掘领域,具体涉及一种基于预训练语言模型和文本特征融合的地理实体识别与空间关系抽取方法。

背景技术

空间关系作为描述地理实体之间相互约束、相互作用、相互关联状态的信息,是人类进行空间位置描述时不可或缺的连接信息。人们的日常生活交流会频繁涉及关于空间位置的描述,这类描述通常以一对地理实体对象加之空间关系的形式出现,其中空间关系启发人们从已知地理实体推理出未知地理实体的空间位置,连接了人类思想的语义空间和现实世界的物理空间。文本是日常生活中最常见的沟通交流与信息交互方式之一,其中包含了丰富的位置描述信息和相应的空间关系信息,然而由于文本表述的灵活性和模糊性,难以正确地理解文本中描述的空间位置。为了更充分地理解空间位置描述,准确识别文本中地理实体和空间关系成了亟待解决的科学问题。

为了获取文本中的空间关系,一直以来研究人员借鉴自然语言处理的关系抽取方法,陆续提出基于规则模板、基于机器学习的关系抽取方法来获取文本中的空间关系。基于规则模板的自然语言空间关系获取方法是通过罗列空间词汇、明确空间关系定义、构建空间关系特征词词典和归纳句法模式等步骤制定抽取规则和模板来获取空间关系,但由于过分依赖专家知识和无法完整归纳抽取规则等缺陷,导致该种抽取方法泛化能力差,抽取结果召回率低。基于机器学习的自然语言空间关系获取方法是引入频率统计、Bootstrapping方法、核方法和支持向量机等统计学习方法提取自然语言的关键特征,从而很大程度上摆脱了对规则模板的依赖,但还存在难以适用于空间关系实例分布稀疏的问题。基于深度学习,有许多科研人员通过联合抽取的方法,即使用同一个编码器来表示文本中的实体信息和关系信息,增强实体识别和关系抽取两项任务之间的依赖关系,解决实体识别和关系抽取作为独立任务带来的误差累积问题,从而缓解空间关系实例分布稀疏对模型带来的影响。

然而,已有的实验和分析表明联合抽取并不是一种理想的关系抽取方法,盲目地共享实体和关系的上下文表示反而会损害模型的空间抽取性能。除此之外,联合抽取方法并没有充分地顾及实体类型信息和关系特征词信息,没有全面地考虑到实体类型和关系特征词对于关系分类任务的影响,难以进一步缓解空间关系实例分布稀疏带来的问题。

发明内容

本发明目的在于针对现有空间关系抽取方法在抽取文本中空间关系时存在的缺陷和不足,提出了一种基于预训练语言模型与文本特征融合的空间关系抽取方法,该方法面向真实文本数据,结合大规模语料数据训练得到的预训练语言模型,充分顾及文本中的空间关系特征词,有效解决间关系实例分布稀疏问题。

本发明解决上述技术问题所采取的技术方案是一种基于预训练语言模型与文本特征融合的空间关系抽取方法,该方法包括如下步骤:

步骤1:首先对文本数据进行预处理,利用正则表达式去除文本中的“¥#%$”和空格等无意义字符,确保双引号或单引号前后引号完整匹配。然后,逐字符分割文本数据,并在文本数据切分结果的开头和结尾处添加[CLS]和[SEP]标识符。若文本数据为批量输入,则需要确保每条文本数据长度一致,长度较短的文本数据使用[PAD]标识符来填充。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111338542.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top