[发明专利]一种基于深度学习和内容规划的文本自动生成方法及装置有效
申请号: | 202110488572.9 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113065336B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 郑海涛;柏杨;李自然;沈颖;肖喜;江勇;夏树涛 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F16/26;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 内容 规划 文本 自动 生成 方法 装置 | ||
本发明公开了一种基于深度学习和内容规划的文本自动生成方法及装置,本发明利用分层自注意力机制对结构化数据进行层次化编码表示,并通过分层规划技术对数据进行从粗到细的规划,最后通过双重注意力机制解码生成高质量的文本描述,本发明解决了传统的文本自动生成技术在数据到文本生成时面临的信息冗余、逻辑混乱等问题,相对于传统端到端的文本生成方法以及过去的规划方法,本发明将分层规划融入到多粒度的语言模型中,极大减小人工参与程度,且可以生成更加准确、流畅、简洁且逻辑严谨的文本。
技术领域
本发明涉及计算机应用、计算机系统及其技术产品技术领域,尤其涉及一种基于深度学习和内容规划的文本自动生成方法及装置。
背景技术
随着移动互联网的高速发展,富媒体数据(文本、图像、视频等)呈现爆炸式增长,同时随着计算机技术的不断发展,人们已经不能满足于简单的检索来利用这些大规模的富媒体数据,更需要根据这些数据来制定新的想法并进行沟通,甚至要求利用这些数据来辅助创作,生成所需要的内容。文本自动生成的主要的好处在于它能够将数据集转换为人类理解的清晰叙述,例如在处理电子表格中存在的统计数据时,利用文本自动生成技术可以生成丰富的信息,从而可以准确地评估、分析和传达数据。通过常规分析和相关任务的智能自动化,可以提高生产力,这样人类就可以专注于更具创造性、高价值的回报活动。因此文本自动生成技术近来受到了越来越多的关注,并在很多应用中都取得了很好的效果。在电商领域,我们可以自动地生成商品海报,也可以自动的生成商品标题;在创作领域,机器可以自动写诗作曲,而生成的内容已基本接近人类的效果;除此之外,自动生成图片描述,生成新闻文章也取得了很大进展。通过文本自动生成技术的应用,极大的减少了生成过程中的人工参与,提高了内容生成的效率,同时保证了生成内容的质量。
虽然基于深度学习的文本自动生成技术取得了一系列成果,但其在结构化数据的文本生成任务上依然存在很多问题。传统的文本生成系统通常将生成过程分为三个阶段——内容选择、文本规划和表面实现,这三个阶段严重依赖于人类设计的规则和模板。而近年来随着深度学习的发展,很多研究将整个生成阶段看作是一个端到端的学习问题,融合到一个统一的框架中,并通过训练一个基于编码器-解码器(Encoder-decoder)结构的神经网络模型来进行学习。这种方法直接将输入数据看作是一个序列,通过端到端的方式直接生成文本,而没有对内容选择和规划进行显式建模,因此尽管可以生成流畅且语法正确的文本描述,但难以保证输入数据和输出文本之间的一致性,并且往往导致生成的文本中存在信息冗余和逻辑混乱等问题。
为了缓解这些问题,对规划阶段进行显式建模是非常必要的。一方面,如果一个模型可以由显式规划进行引导,就可以得到一个更加连贯有序的输入数据,并以更一致和可控的方式来处理表面实现。另一方面,从数据生成的文本描述需要保持简洁易读。因此,使用内容选择机制从输入数据中选择关键信息来生成是非常必要的。要从给定的结构化数据来生成一段简短而翔实的介绍,既需要粗粒度的规划(也就是确定要呈现哪些属性以及以什么顺序呈现),也需要细粒度的规划(从每一条属性中选择比较重要的词)。近年来也有一些神经网络方法对规划过程进行建模,然而,这些方法面临以下两个问题:首先,它们要么只是对内容选择阶段进行建模,要么只是对输入数据的顺序进行建模,而内容选择和顺序规划都是必不可少的。其次,这些方法只关注属性级或句子级别等粗粒度的规划,而对细粒度的规划关注较少,使得生成的结果信息冗余,不够简洁。
发明内容
本发明目的就是为了弥补已有技术信息冗余、逻辑混乱的缺陷,提供一种基于深度学习和内容规划的文本自动生成方法及装置。
本发明是通过以下技术方案实现的:
一种基于深度学习和内容规划的文本自动生成装置,包括有表示模块、规划模块和生成模块;
所述的表示模块将输入数据进行层次化编码表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110488572.9/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法