[发明专利]一种基于细粒度主题建模的数据到文本生成方法有效
申请号: | 202010754044.9 | 申请日: | 2020-07-30 |
公开(公告)号: | CN112069827B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 王旭强 | 申请(专利权)人: | 国网天津市电力公司;国家电网有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F40/284;G06F40/126;G06N3/04 |
代理公司: | 天津创智睿诚知识产权代理有限公司 12251 | 代理人: | 王融生 |
地址: | 300010*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 细粒度 主题 建模 数据 文本 生成 方法 | ||
1.一种基于细粒度主题建模的数据到文本生成方法,其特征在于,包括以下步骤:
步骤1:在编码层基于双向长短期记忆网络学习结构化数据表中每个数据记录的语义表示;
步骤2:基于非负矩阵分解方法学习结构化数据表中每个数据记录对应的主题分布以及各主题对应的词分布,得到每个数据记录对应的主题词表;
步骤3:在解码层基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络、注意力机制、细粒度主题表示,并结合步骤2得到的主题词表,进行文本生成;
步骤4:进行模型训练,构建损失函数对步骤1编码的结构化数据表中每个数据记录的语义表示和步骤3生成的文本进行优化,得到最优的文本生成结果;
其中,在步骤3中,基于步骤1编码的结构化数据表中每个数据记录的语义表示,利用长短期记忆网络解码生成过程中每个时间步的隐藏表示;基于解码的隐藏表示和步骤1编码的数据记录的语义表示进行注意力计算,挖掘生成过程中需关注的数据表中的关键信息;基于解码的隐藏表示和步骤2得到的主题词表计算得到数据表的主题特征向量,最终结合所述的主题特征向量和数据表中的关键信息辅助文本生成。
2.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤1中,首先将结构化数据表中每个数据记录包含的三个属性分别映射到低维、稠密的特征向量空间,得到三个特征向量,并将三个特征向量进行拼接,作为每个数据记录的初始特征表示;然后使用双向长短期记忆网络作为编码层,输入每个数据记录的初始特征表示,输出每个数据记录的语义表示。
3.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤2中,构建数据记录与数据记录中的词的共现矩阵;基于所述共现矩阵,利用非负矩阵分解方法学习数据记录对应的主题分布以及各主题对应的词分布。
4.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤2中,对于每个数据记录,选择其对应的主题分布中概率最大的主题作为该数据记录的主题,并从该主题对应的词分布中选择概率最大的一定个数的词作为该数据记录对应的主题词表。
5.根据权利要求1所述的基于细粒度主题建模的数据到文本生成方法,其特征在于:在步骤3中,引入数值复制机制,用于提升文本中数值的生成效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网天津市电力公司;国家电网有限公司,未经国网天津市电力公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010754044.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:软件项目持续集成方法、装置、终端设备和存储介质
- 下一篇:一种新型医用制氧机