[发明专利]融合词粒度概率映射信息的汉越跨语言摘要方法有效
申请号: | 202110958255.9 | 申请日: | 2021-08-20 |
公开(公告)号: | CN113743133B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 张亚飞;李笑萌;郭军军;高盛祥;余正涛 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06F40/289;G06F40/242;G06N3/048;G06N3/0499;G06N3/084 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 粒度 概率 映射 信息 汉越跨 语言 摘要 方法 | ||
本发明涉及融合词粒度概率映射信息的汉越跨语言摘要方法,属于自然语言处理技术领域。本发明包括步骤:语料收集;对收集的语料进行分词预处理;并利用fast‑align工具及统计的思想获得汉越概率映射对;并采用编解码注意力机制,以此获取基于汉语文章摘要的关键词;概率映射机制的构建;词级概率映射信息的融入;本发明对汉越词粒度的信息和其篇章级的文本进行表征;其次,基于注意力机制对词粒度的信息和篇章级文本进行联合表征;最后,通过融合词粒度的对齐信息到目标语言的摘要,提高摘要的准确性。本发明在汉‑越跨语言摘要数据集上进行了实验,实验证明了本发明的有效性和优越性。
技术领域
本发明涉及融合词粒度概率映射信息的汉越跨语言摘要方法,属于自然语言处理技术领域。
背景技术
文本自动摘要旨在从给定的长文本中生成简短的摘要。目前主流的摘要任务只针对一种语言,而跨语言摘要旨在为给定的一篇源语言文章生成另一种语言的摘要。 目前,虽然汉越跨语言摘要篇章级标注数据稀缺,但是其词级对齐数据是比较丰富 的。又因为中文与越南语的语序不同,导致其语义难以对齐,需要大量的标记数据 来训练。在低资源语言环境下,由于平行数据稀缺,导致跨语言摘要模型在学习时 无法很好的学习到句子中的语义信息,导致摘要结果出现信息表达不完整、信息表 达不准确等问题。
针对以上问题,现有的解决思路主要有基于机器翻译的方法,以及词级映射的 方法。大多数的跨语言摘要是基于机器翻译开展的,它可以大致分为三类。一是端 到端的跨语言摘要方法。Zhu等人提出了基于Transformer框架的多任务摘要方法, 该方法的主要贡献是利用循回翻译获得大规模的高质量汉英跨语言摘要数据集,但 它仍依赖于大规模的数据才能获得较好的结果。二是利用“教师”-“学生”网络的跨语 言摘要方法。Ayana等人提出利用“教师”-“学生”框架,在没有直接的源语言文章和 目标语言标题语料的情况下,基于预先训练的神经网络机器翻译模型及单语摘要模 型,指导无平行语料学生模型的参数学习,这样的方法需要大量的语料训练机器翻 译模型,并增加了训练时间。三是预训练的跨语言摘要方法。Xu等人提出了基于 Transformer的混合语言预训练方法,该方法利用跨语言任务(如翻译)和单语任务 模型(如mask语言模型),利用大量单语数据增强其语言模型的建模能力,是目前 研究的一个新方向。但是,目前基于机器翻译的方法大都需要大量标记的平行语料, 对于低资源的汉越跨语言摘要任务效果较差。
基于词级映射的跨语言摘要方法。传统的跨语言摘要方法是构建双语词典,将 作为输入的源语言文本和目标语言的参考摘要通过双语词典映射至同一语义空间, 然后在进行摘要。但是使用双语对齐词典等词级映射的方法,不仅没有解决跨语言 的问题,还增加了训练的时间。Cao等人提出在理解不同语言语义的同时总结摘要的 方法,该方法基于Transformer框架,利用对抗的方法,解决了两种语言之间的语义 鸿沟的问题。但是由于缺乏大量对齐的跨语言数据集,对抗的方法不能取得很好的 效果。对于跨语言文本摘要,使用词级映射,不能有效的关注到关键信息,不利于 指导摘要的生成。因此,使用词级映射对于低资源的汉越跨语言文本摘要任务是不 可取的。
发明内容
本发明提供了融合词粒度概率映射信息的汉越跨语言摘要方法,以用于解决汉越跨语言摘要方法及其模型中无法很好的学习到句子中的语义信息,导致摘要结果 出现信息表达不完整、信息表达不准确等问题。
本发明的技术方案是:融合词粒度概率映射信息的汉越跨语言摘要方法(Chinese-Vietnamese Bilingual Text Summarization Based on Mappping of Word-grained Probability,C-Vbts),所述融合词粒度概率映射信息的汉越跨语言摘要 方法的具体步骤如下:
Step1、语料收集:获取汉越文章摘要数据对、汉英文章摘要数据对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110958255.9/2.html,转载请声明来源钻瓜专利网。