[发明专利]实体及关系抽取方法及系统、装置、介质有效
申请号: | 202011076691.5 | 申请日: | 2020-10-10 |
公开(公告)号: | CN112163092B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数之联科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦;陈婉鹃 |
地址: | 610042 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 关系 抽取 方法 系统 装置 介质 | ||
1.实体及关系抽取方法,其特征在于,所述方法包括:
将文档输入预训练语言模型,得到文档单词序列的向量表示序列;
将向量表示序列输入卷积神经网络,结合注意力机制编码每个单词的嵌入表示,获得序列嵌入表示;
将序列嵌入表示输入第一编码器,得到实体特征嵌入表示信息;将实体特征嵌入表示信息输入实体分类器中进行实体分类,得到实体分类结果;
将序列嵌入表示输入第二编码器,得到的关系特征嵌入表示信息;
将实体特征嵌入表示信息和关系特征嵌入表示信息拼接得到拼接向量,将拼接向量输入前馈神经网络中得到关系抽取的嵌入表示,将关系抽取的嵌入表示输入到关系分类器中进行关系分类,得到关系分类结果;
利用实体分类损失函数和关系抽取损失函数优化实体分类结果和关系分类结果。
2.根据权利要求1所述的实体及关系抽取方法,其特征在于,输入文档D={w1,w2,...,wn},wn为文档字符串序列中的每个字符,文档D单词来源于词汇库,wi∈Wv,i=1,...,n,n表示文档D单词的个数,v表示词汇库的大小,W表示词汇库空间,Wv为包含v个词汇的词汇库空间,经过预训练语言模型得到文档单词序列的向量表示:X={x1,x2,...,xn},xi∈Rd,i=1,...,n;xi是一个实数空间的d维向量,表示第i个单词的向量表示,R代表实数空间。
3.根据权利要求2所述的实体及关系抽取方法,其特征在于,对于文档单词序列的向量表示序列X={x1,x2,...,xn},使用一组宽为单词嵌入表示维度d,长度为l={l1,l2,...,lm}的卷积核对文档单词序列的向量表示序列进行一维卷积,其中ls代表各个ngram的长度,s=1,...,m;对于每个长度为l的ngram单词片段:ul,i=[xi,...,xi+l]∈Rl×d;1≤i≤n-l,l={l1,l2,...,lm};ul,i代表单词序列向量表示X从位置i开始长度为l的单词片段向量表示;Rd×l代表长度为l,嵌入表示维度为d的实数空间;
使用一组数目为单词嵌入表示维度d,ngram长度为l的卷积核f={f1,f2,...,fk}对文本片段进行卷积,fk为第k个卷积核;
Fl,i,j=<ul,i,fl,j>,F∈Rm×n×d
其中,Fl,i,j代表ngram长度为l,序列中起始位置为i,第j个输出通道的值;fl,j∈Rd×l代表一个ngram长度为l、宽为d的卷积核,F是卷积的结果矩阵,F第一维是ngram滑动窗口长度的个数,F第二维是文本序列的长度,F第三维是单词嵌入表示的维度,Rm×n×d为m×n×d维的实数空间;
对于卷积的结果,使用注意力机制在每个ngram维度上进行加权求和得到序列单词的最终嵌入表示:
其中l={l1,l2,...,lm},i=1,...,n
Fl,i=Linear(Fl,i,:),αl,i=Sigmoid(Fl,i)
其中,αl,i代表序列中第i个位置,第l个Ngram卷积后的特征表示,Fl,i代表序列的第i个位置通过第l个Ngram卷积核卷积求得的特征嵌入表示,Gi代表求得的序列中第i个位置最终的特征嵌入表示,G为序列的ngram卷积注意力加权最终结果,Fl,i,:为序列第i个位置,经过长度为l的ngram卷积输出结果,Linear(Fl,i,:)为对Fl,i,:进行线性变换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数之联科技股份有限公司,未经成都数之联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011076691.5/1.html,转载请声明来源钻瓜专利网。