[发明专利]一种无监督句法控制释义生成系统及方法在审
申请号: | 202310295984.X | 申请日: | 2023-03-24 |
公开(公告)号: | CN116362256A | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 张小旺;孙悦 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211;G06N3/0442;G06N3/088 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 句法 控制 释义 生成 系统 方法 | ||
本发明公开一种无监督句法控制释义生成系统及方法,所述释义生成系统包括数据预处理模块、语义编码器、句法序列化模块、句法编码器、混合注意力模块和Double‑GRU解码器;包括如下步骤:将目标句经过句法解析单元获得选区句法树;将选区句法树序列化生成三序列;分别使用语义编码器和句法编码器处理语义句和三序列句法;通过混合注意力模块抽取与目标单词相关的句法子结构;将句法子结构与全局语义信息输入Double‑GRU解码器中获取句法改变语义不变的句子,本发明通过捕捉目标句法子结构入手,将句法子结构增强的注意力网络引入无监督句法控制释义生成中,可以在无并行数据的情况下快速完成句法可控的释义生成。
技术领域:
本发明属于人工智能下控制文本生成领域的技术领域,具体涉及一种无监督句法控制释义生成方法。
背景技术:
释义指的是以另一种形式对文本进行重述。释义生成(Paraphrase Generation,简记PG)[1]是自然语言处理(Natural Language Processing,简记NLP)中一个长期存在的任务。最近先进的机器学习方法和大数据集大大提升了释义生成任务的性能。释义生成任务证明了机器在语义抽取和句子重组方面的潜在性能,并已经应用于许多NLP的下游应用,例如问答[2–4]、聊天机器人引擎[5–7]、句子简化[8–11]、数据增强[12–17]和摘要抽取[18–21]。
近年来,学习具有特定风格的可控释义生成(Controllable ParaphraseGeneration,简记CPG)引起了学者强烈的研究兴趣,例如,满足特定的句法模板[12]或实例[22-23]。由于CPG可以通过使用不同的句法控制产生多样化的释义,它也可以被用于对抗性例子的生成。本发明主要研究句法控制释义生成,如附图1所示,该任务给定一个原句以及一个目标句法选区树,要求机器返回句法改变为目标句法但是语义不变的目标句。
随着深度学习的发展,已经提出了各种方法在大量带标注的释义对上训练序列到序列(Seq2Seq)模型[12,23-24]。然而,收集释义对是昂贵的,并且对某些语言和领域造成挑战。相反,非并行数据则更容易找到,许多并行数据有限的语言仍然拥有大量的非并行数据。因此,在不使用并行数据的情况下实现句法控制释义生成成为提升NLP下游任务泛化性的研究热点之一,这类方法也称为无监督句法控制释义生成。
附图2展示了无监督句法控制释义生成任务的训练和测试阶段。在训练过程中目标句法等同于原句法,因此模型的训练目标为重构原句。但在测试时,目标句法区别于原句法,目标句应结合原语义和目标句法。Huang等人[25]表明之前方法通常在测试时会生成原句而忽略目标句法,这主要是由于在训练过程中原句已经包含重构任务的所有信息,因此模型在训练时倾向忽略目标句法。这造成在测试时即使输入不同句法,模型的输出不会发生改变。为了解决上述问题,目前无监督方法主要有两种角度:一种是从原句法角度出发[25],考虑上述问题产生的原因是原句法对目标句法的控制性能造成负面影响,通过解耦或忽略原句单词顺序去除原句法从而使模型考虑目标句法。但去除原句法将不可避免对原语义造成损失,这与任务要求语义保持一致的条件相悖。另一种是从目标句法角度出发[26-27],考虑目标句在生成时应结合目标句法,通过使用预训练的句法评估器和循环重构作为目标函数分别保证模型的句法可控性与语义一致性。基于目标句法的方法可以在原语义不受破坏的情况下,使用额外的句法评估器提高模型的句法控制能力。但是目前的句法评估器仅能以句法树的单个句法结点为单位进行约束,难以考虑句法树的整体子结构。而目标句法树的子结构对于复杂短语的理解与生成起到至关重要的作用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310295984.X/2.html,转载请声明来源钻瓜专利网。