[发明专利]一种融合五维特征的高普适性多对多关系三元组抽取方法有效

专利信息
申请号: 202210076961.5 申请日: 2022-01-24
公开(公告)号: CN114091464B 公开(公告)日: 2022-04-29
发明(设计)人: 朱海峰;吴晓峰;陶玥 申请(专利权)人: 南京万得资讯科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/35
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 210019 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 特征 高普适性多 关系 三元 抽取 方法
【权利要求书】:

1.一种融合五维特征的高普适性多对多关系三元组抽取方法,其特征在于,包括以下步骤:

第一步:数据准备

准备用于训练实体识别模型的实体识别语料以及用于三元组分类引擎训练的三元组分类语料,其中,取语义角色类型为施事者作为头实体、受事者作为尾实体、施事者和受事者对应的谓词作为关系,同组出现的语义角色构成结构为头实体,关系,尾实体的三元组;

第二步:构建用于进行实体抽取的实体识别模型,包括以下步骤:

步骤1、生成底层自然语言处理特征

对文本进行分句,再使用底层自然语言处理工具HanLP对文本中的每句句子进行分词,生成分词的词性、语义角色、语义依存和句法依存四个维度特征;

步骤2、引入Bert预训练词向量

基于步骤1中的分词结果,使用基于词颗粒度中文WoBert的预训练模型,为每句句子生成维度为n的分词预训练向量,这样就得到了每句句子的预训练句子向量{y1,y2,…,yi,…,yn},yi为预训练句子向量中的第i个预训练词向量;

步骤3、引入依存关系,具体包括以下步骤:

步骤301、根据语义和句法依存关系的类别,生成相应类别的语义依存关系超平面、句法依存关系超平面、语义依存关系向量、句法依存关系向量;

步骤302、找出每句句子中独立的分词,将该分词作为根节点,为每句句子分别建立语义依存树以及句法依存树,由语义依存树以及句法依存树的所有节点分别组成当前句子的包含有语义依存关系的句子向量{sdp1,sdp2,…,sdpi,…,sdpn}和包含有句法依存关系的句子向量{sep1,sep2,…,sepi,…,sepn},其中,sdpi为当前句子向量中第i个包含有语义依存关系的词向量,sepi为当前句子向量中第i个包含有句法依存关系的词向量;

语义依存树以及句法依存树中,除根节点向量为步骤2得到对应分词的预训练词向量外,其他节点的向量为依赖节点的预训练词向量在相应关系的语义依存超平面或句法依存关系中的投影和语义依存关系向量或句法依存向量的翻译;

步骤4:引入词性和语义角色

在基于词颗粒度中文WoBert中随机初始化维度为kpos×n的向量以及维度为ksrl×n的向量,其中,kpos和ksrl分别表示词性和语义角色的种类数量,根据每个句子中各个分词的词性和语义角色类型,为每个句子生成表示词性的句子向量{pos1,pos2,…,posi,…,posn}以及表示语义角色的句子向量{srl1,srl2,…,srli,…,srln},其中,posi为当前句子向量中第i个表示词性的词向量,srli为当前句子向量中第i个表示语义角色的词向量;

步骤5:使用Lex-Bert V2中的共享位置嵌入的方法,将步骤2、步骤3及步骤4得到的五种维度的词向量进行拼接,获得五维特征词向量;

步骤6:实体识别模型基于五维特征词向量进行实体识别,并利用实体识别语料对实体识别模型进行训练,直至模型收敛,并得到模型收敛时的所有类别的语义和句法依存关系的关系超平面以及关系向量;

第三步:构建用于判断实体识别模型抽取的实体是否构成三元组的三元组分类引擎:

三元组分类引擎使用TextCNN分类网络对包含语义和句法依存特征的实体对进行分类,判断是否构成三元组,其中,三元组分类引擎的输入是三元组间的语义和句法依存关系,输入顺序为头实体-关系、尾实体-关系、头实体-尾实体,其中,x-y表示x依赖y的语义和句法依存关系类型集合和y依赖x的语义和句法依存关系类型集合;使用训练实体识别模型得到的所有类别的语义和句法依存关系的关系向量初始化依赖关系并嵌入字典,该字典随着三元组分类引擎所采用的TextCNN分类网络利用三元组分类语料一起训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京万得资讯科技有限公司,未经南京万得资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210076961.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top