[发明专利]基于类型感知的汉越跨语言事件检测方法在审
申请号: | 202111078802.0 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113901209A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 高盛祥;张磊;余正涛;朱恩昌;张勇丙 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 类型 感知 汉越跨 语言 事件 检测 方法 | ||
本发明涉及基于类型感知的汉越跨语言事件检测方法,属自然语言处理领域。包括:利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语‑越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。本发明缓解了越南语数据稀疏和标注困难的问题。并模糊触发词的形态和语义,缓解了传统方法中单语歧义性和触发词局限性等问题。
技术领域
本发明涉及基于类型感知的汉越跨语言事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是NLP的重要主题之一,目标是在纯文本中识别特定类型的事件类型。汉越跨语言事件检测就是在汉语和越南语上实现双语事件检测。
汉越两国事件关联性越来越强,这些事件主要体现为汉越跨语言文本,而有效进行汉越双语事件检测,对把握相关事件发展趋势,为政府及企业进行事件监测及决策提供重要的依据和支撑国家国际交流与合作有非常重要的作用。目前在汉越事件方面的跨语言研究工作还很有限,尤其涉及到跨语言语义表征问题。汉语语料丰富而越南语作为小语种语料稀缺、数据标注困难,而汉越同属孤立语系,既存在相似之处又存在明显的差异性,给汉越事件检测带来了挑战。
跨语言事件检测方法目前还没有系统的分类,针对跨语言问题的解决大致有以下三类:一是基于多语言方的法,二是基于跨语言词向量映射的方法,三是跨语言任务中还有使用翻译和对抗的方法。
上述都方法依赖大量人工标注训练数据和平行语料,对于越南语来说,只有少量汉-越平行语料,越南语的有标注数据稀缺,且人工标注代价昂贵。用于事件检测的许多最先进的模型严重依赖于监督学习方法的大量标注训练数据,并没有足够的越南语言数据作为统计学习模型的训练支撑,使得汉越跨语言模型性能表现不佳。且越南语事件触发词的标注和识别存在歧义,使得越南语事件检测局限于多音节词歧义。
发明内容
本发明提供了基于类型感知的汉越跨语言事件检测方法,缓解越南语数据稀疏和标注困难,以及传统方法中单语歧义性和触发词局限性等问题。
本发明的技术方案是:首先利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。
作为本发明的优选方案,所述方法的具体步骤如下:
Step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
Step2、以Bi-LSTM编码后,使用基于事件类型的注意力机制对Bi-LSTM输出的隐藏状态向量序列重新提取特征,获得新的句子表示。网络在特征提取阶段就编码了事件类型等信息,使得注意力机制将更多的权重分配给与本事件类型相关的词上;
Step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078802.0/2.html,转载请声明来源钻瓜专利网。