[发明专利]利用拓扑依存关系多视角图编码器的论元抽取方法有效
申请号: | 202110594279.0 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113222119B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 罗森林;祁佳俊;吴舟婷;周妍汝;董勃 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06F40/284;G06F16/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 拓扑 依存 关系 视角 编码器 抽取 方法 | ||
1.利用拓扑依存关系多视角图编码器的论元抽取方法,其特征在于所述方法包括如下步骤:
步骤1,利用BERT预训练模型对数据集ACE2005实现文本嵌入,首先,把句子视为由Nw个单词构成的序列,通过将单词划分为一组有限的公共子词单元,得到词块嵌入向量,并在句子的开始和结尾处分别设置[CLS]与[SEP]标签,通过将单词的位置信息编码为特征向量,与Transformer模型中使用的位置编码方式相同,由正余弦函数计算得到位置嵌入向量,通过将两个不同的句子设置不同的特征值,通过设置不同的特征值以区分两个不同句子,得到分割嵌入向量,然后,将得到的词块嵌入向量、位置嵌入向量和分割嵌入向量输入到BERT模型,得到文本嵌入向量最后,通过查找随机初始化的触发词类别向量表,将ACE2005数据集定义的34个触发词类别进行嵌入,得到触发词类别嵌入向量同时使用BIO标注策略来标注实体范围,通过查找随机初始化的实体类别向量表对ACE2005中定义的45个实体类别进行嵌入,得到实体类别嵌入向量
步骤2,对候选论元、实体类别和触发词之间的拓扑关系进行建模,构建多视角图,首先,根据候选论元之间的依存句法关系,构建候选论元节点-候选论元节点视角信息网络图,然后,根据候选论元与触发词类别之间的拓扑关系,构建候选论元节点-触发词类别节点视角信息网络图,最后,根据候选论元与实体类别之间的拓扑关系,构建候选论元节点-实体类别节点视角信息网络图;
步骤3,利用图卷积网络(GCN)分别对多视角图进行编码,得到候选论元的多视角图嵌入向量,首先,利用GCN分别对候选论元节点-候选论元节点图、候选论元节点-触发词类别节点图和候选论元节点-实体类别节点图进行编码,编码过程为:H(l+1)=σ(M-1/2A′M-1/2·H(l)·W(l)),其中A′=A+I,A为由多视角图得到的邻接矩阵和I为自连接的单位矩阵,W(l)为第l层的权重矩阵,σ(·)表示激活函数,H(l)为第l层节点的隐层表示,初始化H(0)=X,分别将多视角图的邻接矩阵经过GCN编码得到三个对应的网络嵌入向量和然后,利用双向门控循环单元(BiGRU)聚合三个视角的网络嵌入向量,公式为:其中最后得到候选论元的多视角图嵌入向量Hmpge;
步骤4,经过Softmax全连接层从候选论元中分类抽取事件论元。
2.根据权利要求1所述的利用拓扑依存关系多视角图编码器的论元抽取方法,其特征在于:所述步骤2进一步包括利用Stanford Parser依存句法分析工具生成候选句的依存句法树,并根据候选论元层的依存句法关系R(wi,wj)构建边(wi,wj),同时增加反转边(wj,wi)和自环边(wi,wi),构建候选论元节点-候选论元节点视角信息网络图其中υww为节点,εww为边,使用计算方式构建候选论元-候选论元之间的边,最后得到候选论元-候选论元节点之间依存关系的邻接矩阵其中nw为候选词层节点个数。
3.根据权利要求1所述的利用拓扑依存关系多视角图编码器的论元抽取方法,其特征在于:所述步骤2进一步包括通过判断当前候选论元是否为触发词,若是触发词,则将其与所属的触发词类别节点之间建立一条边的边构建规则,构建候选论元节点-触发词类别节点视角信息网络图其中υwt为节点,εwt为边,根据图得到候选论元节点-触发词类别节点之间依存关系的邻接矩阵其中nw为候选词层节点个数,nt为触发词类别层节点个数。
4.根据权利要求1所述的利用拓扑依存关系多视角图编码器的论元抽取方法,其特征在于:所述步骤2进一步包括通过判断当前候选论元是否属于某一实体类别,若存在从属关系,则在候选论元节点与所属实体类别节点之间根据BI标签建立一条边的边构建规则,构建候选论元节点-实体类别节点视角信息网络图其中υwe为节点,εwe为边,根据图得到候选论元节点-实体类别节点之间依存关系的邻接矩阵为其中nw为候选词层节点个数,ne为实体类别层节点个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594279.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆形料场堆取料机
- 下一篇:一种文件处理方法、装置、设备及存储介质