[发明专利]基于预训练语言模型与文本特征融合的空间关系抽取方法有效

专利信息
申请号: 202111338542.6 申请日: 2021-11-12
公开(公告)号: CN114528368B 公开(公告)日: 2023-08-25
发明(设计)人: 张雪英;吴恪涵;王益鹏 申请(专利权)人: 南京师范大学
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F16/35;G06F40/253;G06F40/30;G06N3/0499;G06N3/09
代理公司: 南京锐恒专利代理事务所(普通合伙) 32506 代理人: 陈思
地址: 210046 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 训练 语言 模型 文本 特征 融合 空间 关系 抽取 方法
【权利要求书】:

1.基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于包括以下步骤:

步骤1:对原始文本数据进行预处理,利用正则表达式去除文本中的无意义字符,确保文本中前后引号完整匹配,对处理后的文本数据逐字符分词,并在分词结果的开头和结尾处添加[CLS]和[SEP]标识符,若以批量形式输入文本数据,则需确保每条文本数据长度一致,长度较短的文本数据使用[PAD]标识符来填充;

步骤2:将经过预处理的文本数据输入预训练语言模型,文本数据逐字符分词结果T={t1,t2,..,tN}被转化为稠密实数字向量Z={z1,z2,..,zN};

步骤3:将步骤2得到的字向量分别输入两个由单层前馈神经网络构成的二分类器,预测字向量zi是否为地理实体或空间关系特征词的开头或结尾,两个二分类器的预测结果分别被记录在POSstart和POSend索引集合中,并按照索引升序排序,

POSstart=GeLU(WstartZ+bstart),POSend=GeLU(WendZ+bend)

基于字向量Z={z1,z2,..,zN}、POSstart和POSend索引集合,按照就近原则选取一对开始和结束索引[i,j],并通过最大池化方法融合Z中zi到zj的字向量,生成字符跨度表示;

步骤4:将步骤3中生成的字符跨度表示输入由单层前馈神经网络构建的实体识别器,预测该字符跨度表示的实体类型,

S[i-j]=Max([zi;zi+1;…;zj])

Entity Class=softmax(WentityS[i-j]+bentity)

实体类型包括具体地理实体类型、空间关系特征词或代表该字符跨度表示不属于任何地理实体或空间关系特征词类型;

步骤5:依据文本中地理实体的预测结果,模型自动在源文本数据开始、结束位置前后添加地理实体标记,同时更新空间关系特征词在源文本数据中的开始与结束位置信息,地理实体标记添加完毕之后,新生成的文本数据输入到另一个预训练语言模型中,生成对应的文本字向量,模型通过平均池化方法融合开始与结束标记的字向量来表示地理实体,通过最大池化方法融合所属字向量来表示空间关系特征词;

步骤6:模型以组合的形式来匹配地理实体,构成候选地理实体对集合,选取集合中任意一对地理实体,以及空间关系特征词所对应的字向量表示,并将上述字向量表示进行拼接处理;通过自注意力机制将拼接后的向量表示融合为文本特征向量;将文本特征向量输入到用于空间关系分类的前馈神经网络中,依据前馈神经网络输出的概率信息判定地理实体间的空间关系,

S=concat(SEntity-sub;SEntity-obj;SFeatureword_1;…;SFeatureword_p)

Relation Class=softmax(WrS′+br)。

2.根据权利要求1所述的基于预训练语言模型与文本特征融合的空间关系抽取方法,其特征在于,基于大规模的地理学领域文本数据,预训练语言模型通过自监督学习方法从文本数据中学习语法规则和挖掘隐含语义,以字符粒度分割的文本数据作为输入,模型从字符本身、位置和语义三方面编码文本数据,生成字向量矩阵,矩阵的维度分别为预训练语言模型设置的输出维度大小和输入文本字符长度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111338542.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top