[发明专利]一种开放域语料关系联合抽取方法在审
申请号: | 202210984004.2 | 申请日: | 2022-08-17 |
公开(公告)号: | CN115310454A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 马颖忆;刘志峰;葛少峰;张启菊;王海英 | 申请(专利权)人: | 金陵科技学院 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 徐燕 |
地址: | 211169 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放 语料 关系 联合 抽取 方法 | ||
1.一种开放域语料关系联合抽取方法,其特征在于,包括以下步骤:
S1、提取语料中字符的特征向量:将语料输入至BERT预训练语言模型中对语料进行编码,并得到语料中字符的特征向量;
S2、在图注意力网络中进行特征融合:基于图注意力网络将字符的特征向量中所包含的特征进行融合,并学习字符间的依赖关系;
S3、将语料中的关系短语进行抽取:通过设计关系短语序列标注模型抽取语料中存在的关系短语,其中关系短语的含义为语料句子中的谓语部分;
S4、将语料中的实体对短语进行抽取:由于关系短语的含义为语料句子中的谓语部分,因此每个关系短语都有对应的实体对短语,其中实体对短语包括首实体短语和尾实体短语,首实体短语的含义为语料句子中的主语,尾实体短语的含义为语料句子中的宾语;根据步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对短语,并进行抽取;
S5、根据步骤S3抽取的关系短语以及步骤S4抽取对应的实体对短语,将其组成三元组,并确定该三元组的置信度,若置信度大于或等于设定置信度阈值时,则将该三元组作为输入语料的开放域关系三元组。
2.根据权利要求1所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S2中所述学习字符间的依赖关系的具体计算公式为:
式中,表示第i个字符在第t层的隐层状态向量,其体现了字符间的依赖关系;表示第i个字符在第t-1层的隐层状态向量,σ表示为sigmoid激活函数,n表示输入语料的长度,Mij表示为图注意力网络的依赖权重,Wt和bt分别是图注意力网络的参数矩阵和偏置向量。
3.根据权利要求2所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S3的具体内容为:
S3.1、设计关系短语序列标注模型,以计算某一字符是关系短语的起始位置或结束位置的概率,该模型具体计算公式为:
式中,和分别代表输入语料的序列中,第i个字符作为关系短语的开始位置和结束位置的概率,xi代表第i个词的编码序列,Wstart表示计算关系短语起始位置的权重,Wend表示计算关系短语结束位置的权重,bstart表示计算关系短语起始位置的偏差,bend表示计算关系短语结束位置的偏差,σ表示sigmoid激活函数;
S3.2、在步骤S3.1所计算的和中,若概率值大于概率阈值,则该位置设为1,反之设为0,以此确定关系短语的位置,实现语料中关系短语的抽取。
4.根据权利要求3所述的一种开放域语料关系联合抽取方法,其特征在于,步骤S4的具体内容为:步骤S4中根据步骤S2的字符间依赖关系以及通过基于图注意力网络预测每个关系短语所对应的实体对短语,并进行抽取的具体内容为:
S4.1、设定在步骤S3中,所抽取出的某个关系短语,其在关系短语集合中的索引为λ,通过关系嵌入表示为向量hλ;
S4.2、将向量hλ和步骤S2求出的隐层状态向量hit一起输入到解码器中,并通过图注意力网络处理获得融合卷积层特征的解码器输出;
S4.3、将步骤S4.2的输出输入到图注意力网络中的预测层,实现实体对短语中的首实体短语和尾实体短语的预测,并进行抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金陵科技学院,未经金陵科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210984004.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种溺水自动求救的儿童监护手表
- 下一篇:一种钢柱与既有结构连接构造