[发明专利]基于类型感知的汉越跨语言事件检测方法在审
申请号: | 202111078802.0 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901209A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 高盛祥;张磊;余正涛;朱恩昌;张勇丙 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 类型 感知 汉越跨 语言 事件 检测 方法 | ||
1.基于类型感知的汉越跨语言事件检测方法,其特征在于:所述方法首先利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。
2.根据权利要求1所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述方法的具体步骤如下:
Step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
Step2、以Bi-LSTM编码后,使用基于事件类型的注意力机制对Bi-LSTM输出的隐藏状态向量序列重新提取特征,获得新的句子表示;网络在特征提取阶段就编码了事件类型信息,使得注意力机制将多的权重分配给与本事件类型相关的词上;
Step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
3.根据权利要求2所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出句子级可比语料,并以json格式储存到数据库中;
Step1.2、使用nlp工具对各单语语料进行去除停用词、分词、词干提取和词形还原的数据处理,使用StanfordNLP标记出词位置、词性和命名实体信息;
Step1.3、通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征。
4.根据权利要求3所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step1.3中:
输入汉越文本被建模为单词序列X=w1....wn,其中每个wi由其词嵌入vi表示;由于汉越各自训练出的单语词嵌入向量矩阵C和V分布不同,需要找到最佳映射矩阵WC、WV,使CWC、VWV在同一语义空间下;使用无监督的方法,结合自学习算法来逐渐优化映射矩阵W,将W约束为正交矩阵即
WWT=WTW=I
使得在单语语义不变性情况下,汉语和越南语中语义相同的词嵌入在公共语义空间中的距离更近,用于缓解汉语和越南语之间的差异,让跨语言模型更加健壮。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078802.0/1.html,转载请声明来源钻瓜专利网。