[发明专利]一种基于细粒度主题建模的数据到文本生成方法有效
申请号: | 202010754044.9 | 申请日: | 2020-07-30 |
公开(公告)号: | CN112069827B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 王旭强 | 申请(专利权)人: | 国网天津市电力公司;国家电网有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/284;G06F40/126;G06N3/04 |
代理公司: | 天津创智睿诚知识产权代理有限公司 12251 | 代理人: | 王融生 |
地址: | 300010*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 细粒度 主题 建模 数据 文本 生成 方法 | ||
本发明公开了一种基于细粒度主题建模的数据到文本生成方法,包括以下步骤:在编码层基于双向长短期记忆网络学习每个数据记录的语义表示;基于非负矩阵分解方法学习每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;在解码层基于每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合主题词表,进行文本生成;进行模型训练,得到最优的文本生成结果。本发明通过利用非负矩阵分解方法挖掘数据的主题分布以及主题对应的词分布,并以此来约束生成文本和数据表之间的主题一致性,并指导模型学习到更准确的用词方式;在文本生成过程中引入复制机制,保证模型可以准确生成数值描述。
技术领域
本发明涉及计算机应用技术领域,具体涉及一种基于细粒度主题建模的数据到文本生成方法。
背景技术
随着信息技术的发展,各个领域积累的行业数据正在快速增长,例如,金融领域积累的财务报表、体育领域积累的球赛实况数据等。为了解决海量数据带来的信息过载问题,数据到文本生成任务受到了越来越多研究者的关注。数据到文本生成任务旨在用自然语言描述结构化数据中包含的主要信息,进而帮助人们更好地把握海量数据背后包含的具体含义。
早期的研究工作主要将该任务拆分为内容规划、句子规划以及表层实现三个独立的子任务,并构建一系列人工规则来依次执行这些子任务,以得到最终的文本。因此,这类方法虽然结构简单且具有较好的可解释性,但存在错误传递、人工模板难以获取等问题,可扩展性较差。
近年来,随着深度学习技术的发展,基于编码器-解码器结构的端到端的学习方式逐渐成为了数据到文本生成任务的主流方法。Lebret等利用条件语言模型实现人物传记的生成。Mei等使用基于复制机制的序列到序列模型提升内容选择的效果。Li等采用两阶段的方式生成文本,首先生成文本模板,再采用延迟复制机制填入记录中的数值。Wiseman等关注数据到文档的生成,并在seq2seq模型中引入复制机制和损失重构机制。Gong等采用层次编码的方式学习数据记录的语义。Iso等设计了内容追踪模块,在生成文本的过程中通过跟踪数据记录来提升文本的真实性并减少冗余。Puduppully等在模型中显式地增加内容选择和内容规划模块,提升模型的内容组织能力。同年,Puduppully等还提出了基于实体建模的生成模型。此外,还有部分研究基于半隐马尔科夫模型,实现数据记录到文本的对齐与生成,提升系统的可解释性与可控性。这些方法以数据驱动的形式进行模型训练,避免了繁琐的人工规则,进而使得生成结果更加灵活多样。然而,这些模型主要依赖于神经网络自身的表示学习能力来提升生成文本的质量,而忽略了对文本和数据之间主题一致性的建模。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于细粒度主题建模的数据到文本生成方法。
本发明的技术目的通过下述技术方案予以实现。
一种基于细粒度主题建模的数据到文本生成方法,其特征在于,包括以下步骤:
步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;
在步骤1中,首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间,得到三个特征向量,并将三个特征向量进行拼接,作为每个数据记录的初始特征表示;然后使用双向长短期记忆网络作为编码层,输入每个数据记录的初始特征表示,输出每个数据记录的语义表示。
步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;
在步骤2中,构建数据记录与数据记录中的词的共现矩阵;基于所述共现矩阵,利用非负矩阵分解方法学习数据记录对应的主题分布以及各主题对应的词分布;
在步骤2中,对于每个数据记录,选择其对应的主题分布中概率最大的主题作为该数据记录的主题,并从该主题对应的词分布中选择概率最大的一定个数的词作为该数据记录对应的主题词表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国家电网有限公司,未经国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010754044.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:软件项目持续集成方法、装置、终端设备和存储介质
- 下一篇:一种新型医用制氧机