[发明专利]基于句法图卷积的汉越双语新闻事件因果关系抽取方法有效
申请号: | 202111078636.4 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901229B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 高盛祥;杨舰;余正涛;朱恩昌;寇梦珂;陈瑞清 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/951;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句法 图卷 双语 新闻 事件 因果关系 抽取 方法 | ||
1.基于句法图卷积的汉越双语新闻事件因果关系抽取方法,其特征在于:所述方法首先利用对抗学习的思想将预训练得到的双语词向量映射到同一个语义空间中;然后利用句法图卷积神经网络捕获事件句深层语义信息,最后通过结合事件类型的交叉注意力机制得到不同语言事件句的深层次语义特征;
所述方法的具体步骤如下:
Step1、获取越南语新闻文本、汉语新闻文本,在经过过滤、去噪、筛选后依据ACE2005数据集标准结合任务标注,构建了汉越新闻事件检测数据集;
Step2、基于句法图卷积的汉越双语新闻事件因果关系抽取模型,旨在从描述事件信息的汉越新闻文本中抽取出汉越双语新闻事件之间的因果关系,该模型由词向量表征层、句法图卷积层、交叉注意力层、分类层四个重要的子模块构成;
所述Step2中:
Step2.1、在词向量表征层,通过对抗学习的方法将汉越两种语言映射到同一语义空间下,训练汉越双语词向量;
Step2.2、在句法图卷积层中,句法图卷积模块被设计用来捕获句法依存之间的关系,通过句法依存关系表示的快捷弧增强信息之间的依赖关系;
Step2.3、交叉注意力层中选出关键信息,而忽略其他不重要的信息;交叉注意力机制针对两种语言的新闻句而言,分别利用一种语言的事件类型对另一种语言的新闻句建立注意力机制;在事件对中,为了捕获汉语事件句的深层次的语义信息,将越南语事件句所对应的事件类型与汉语事件句作注意力机制;为了捕获越南语事件句的深层次的语义信息,将汉语事件句所对应的事件类型与越南语事件句作注意力机制;事件类型的加入用来捕获句子深层次的语义信息;
Step2.4、在分类层中,首先分析汉语和越南语的语言特点,借鉴当下现有的事件间因果关系特征,为了提高识别事件因果关系的性能,抽取出事件极性与事件时态两种事件间规则特征;
所述Step2.1的具体步骤为:
Step2.1.1、给定长度为m的汉语句子向量C={c1,c2,…cm},对于C中的每一个词,ci都被标记出实体类型ei,然后分别通过词向量词表和实体向量词表获取所对应的词向量和实体向量最后把词向量和实体向量拼接起来作为ci最终的向量表示Mi;
Step2.1.2、将C中的每一个词ci都按照上述方式表示成向量Mi,用运算符进行向量方向的拼接操作,则句子C的语义表示矩阵XC为:
Step2.1.3、给定长度为n的越南语句子的向量D={d1,d2,…dn},对于D中的每一个词,di都被标记出实体类型qi,然后分别通过词向量词表和实体向量词表获取所对应的词向量和实体向量最后把词向量和实体向量拼接起来作为di最终的向量表示Ni表示为:
Step2.1.4、将D中的每一个词di都按照上述方式表示成向量Ni,用运算符进行向量方向的拼接操作,则句子D的语义表示矩阵XD为:
所述Step2.2的具体步骤为:
Step2.2.1、分别采用中文哈工大的LTP工具和越南语开源依存句法分析工具来构建依存句法关系;分别将不同语言的句子表示成无向图ζ=(γ,ε),其中γ和ε分别是节点集和边集;在γ中,每个vi表示wi的节点,每个边(vi,vj)∈ε是来自单词wi到单词wj的有向句法弧,边的类型标签为K(wi,wj),为了让信息朝相反的方向流动,添加了带有类型标签K′(wi,wj)的反向边(vj,vi);另外,还添加了所有的自循环,即任何vi∈γ的(vi,vi);
Step2.2.2、在句法图卷积网络模块的第k层,K(u,v)表示边(u,v)的类型标签;和分别是针对类型标签K(u,v)的权值矩阵和偏差;N(v)是节点v的邻域集,包括v的自循环;f是非线性激活函数,计算节点v的图卷积向量表示为:
所述Step2.3的具体步骤为:
Step2.3.1、在编码汉语事件句时,将越南语事件句所对应的事件类型与汉语事件句作注意力机制,得到汉语更深层次的语义信息;TV为越南语事件句的事件类型向量,WXH,WXH∈R2d*2d为联合TV和HC的权重向量;α={α1,α2,α3,...,αn}为注意力机制的权重向量,α∈Rn,WK,WK∈R2d为K的权重矩阵;r1,r1∈Rd为越南语新闻句事件类型所对应汉语事件句的权重向量;gC,gC∈Rd为通过交叉注意力机制挖掘出的深层次的汉语事件语义特征向量;具体公式表示如下:
α=softmax(WKK)
r1=αHC
gC=tanh(r1);
所述Step2.4的具体步骤为:
Step2.4.1、事件极性描述:描述了事件是肯定的事件还是否定的事件;当汉越双语新闻事件对的极性相同时特征为1,极性不同时为0;
Step2.4.2、事件时态描述:描述事件所发生的时态是之前的事件、此刻的事件、还是未来的事件;过去发生的事件不可能是此刻发生的事件的结果事件,未来发生的事件也不可能是之前的事件和此刻的事件的原因事件,由此可见,事件时态对因果关系的识别有着一定的作用;设定事件发生在之前的特征值为0,事件正在发生或发生在未来的特征值为1;
Step2.4.3、融合事件间规则特征到所获取的深层次的语义空间下,然后,利用softmax分类器对事件对的因果关系进行分类;gC和gV分别表示汉语事件句的因果关系语义特征和越南语事件句的因果关系语义特征,u表示事件间的规则特征,y为模型的输出;具体公式表示如下:
y=softmax(W[gCgVu]+b)。
2.根据权利要求1所述的基于句法图卷积的汉越双语新闻事件因果关系抽取方法,其特征在于:所述Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉越新闻文本语料,把已爬取出语料经过过滤、去噪、筛选后并以json格式储存到数据库中;
Step1.2、对爬取的语料根据ACE2005数据集标准结合任务进行标注;
Step1.3、构建越南语新闻文本,和与之相对应的中文新闻文本以及事件句集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078636.4/1.html,转载请声明来源钻瓜专利网。