[发明专利]基于句法依存图的篇章级事件嵌入方法及装置有效
申请号: | 202010090488.7 | 申请日: | 2020-02-13 |
公开(公告)号: | CN111274790B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 杨鹏;季冬;李幼平;纪雯 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/295;G06F16/35 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 孟红梅 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句法 依存 篇章 事件 嵌入 方法 装置 | ||
1.基于句法依存图的篇章级事件嵌入方法,其特征在于,包括如下步骤:
(1)获取事件文档语料,利用自然语言处理工具对每篇文档依次进行分词、词性标注、实体识别、代指消解和句法依存分析,并构建词汇表;
(2)基于所述句法依存分析结果,构建初始句法依存图;为图中节点赋予初始权重,迭代地更新其中各节点权重,产生最终的句法依存图;
(3)基于所述句法依存图,采用负采样方法分别构造事件要素权重正负样本和事件要素关系正负样本;其中事件要素权重样本中包括事件id、目标词和目标词权重,事件要素关系样本中包括事件id、主语、宾语、谓语、目标词和标签;
(4)构建基于Skip-Gram架构的事件要素权重预测模型,利用事件要素权重正负样本,训练事件及其要素的特征表示;
(5)构建基于CBOW架构的事件要素关系预测模型,利用事件要素关系正负样本,训练事件及其要素的特征表示;
(6)基于训练完成的事件要素权重预测模型和事件要素关系预测模型,对新输入的文本生成相应的事件嵌入向量;包括:(6-1)根据步骤(3)生成当前文本的构造事件要素权重正负样本和事件要素关系正负样本;(6-2)基于事件要素权重训练样本,根据步骤(4)训练事件要素权重预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变;(6-3)基于事件要素关系训练样本,根据步骤(5)训练事件要素关系预测模型,更新事件嵌入向量;训练过程中,除事件嵌入向量外,所有其他参数固定不变;
(7)基于所述事件嵌入向量,将其作为机器学习算法的输入,进行事件分类或聚类。
2.根据权利要求1所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,所述步骤(2)中,根据句法依存分析结果,构建初始句法依存图,具体为:
每个词作为一个节点,词之间的依存关系表示对应节点之间的有向边;除动词以外,相同的词合并为同一节点,保留这些词的所有依存关系;同一命名实体下的多个词合并为一个节点,消除这些词之间的依存关系,保留这些词与其他词之间的所有依存关系。
3.根据权利要求2所述的基于句法依存图的篇章级事件嵌入方法,其特征在于,所述步骤(2)中为图中节点赋予初始权重,迭代地更新初始句法依存图中各节点权重,产生最终的句法依存图,具体步骤为:
(2-1)为句法依存图中每个节点vi赋予初始权重W0(vi);最大迭代次数为K;
(2-2)更新每个节点vi的权重:
Wn+1(vi)=f(G,Wn,vi)
其中,f是权重更新函数,G是构建好的句法依存图,Wn是第n次迭代后节点权重映射函数,Wn+1(vi)是第n+1次迭代后的节点vi权重;
(2-3)如果句法依存图所有节点的权重更新前后绝对值差|Wn+1(vi)-Wn(vi)|小于阈值a,或者迭代次数达到最大迭代次数,则更新最终节点权重W(vi)=Wn+1(vi);否则执行步骤(2-2)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010090488.7/1.html,转载请声明来源钻瓜专利网。