[发明专利]文本生成方法、装置及设备有效
申请号: | 201810846953.8 | 申请日: | 2018-07-27 |
公开(公告)号: | CN110852084B | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 沈力行;陈展 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 设备 | ||
本发明实施例提供的一种文本生成方法、装置及设备,通过针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本。针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量。针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,排列每个有效文本中的各分词,得到第一待生成文本。按照待生成文本的固定写作格式,排列每个模块的第一待生成文本,得到待生成文本。从而得到符合自然语言表述结构的待生成文本。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种文本生成方法、装置及设备。
背景技术
自然语言是人们日常使用的语言,自然语言处理技术可以实现人机之间的自然语言通信,自然语言处理技术被广泛用于生成具有固定写作格式和指定需求信息的、以自然语言表述的文本,例如,针对待生成文本的固定写作格式中的每个模块,利用自然语言处理技术从资料库中确定符合模块的文本需求信息的有效文本,再将确定的有效文本直接填充至各模块中,按固定写作格式将已填充有效文本的各模块排列,从而得到待生成文本。
固定写作格式中各模块的文本通常包括:文字或句子的表述结构固定的结构化文本,和/或,句子表述结构不固定的非结构化文本。例如,某一热点新闻的固定写作格式中各模块分别为“标题”模块、“发布日期”模块以及“正文”模块,其中,“标题”和“发布日期”模块的文本为结构化文本,“正文”模块的文本为非结构化文本。
在上述自然语言处理技术中,由于将有效文本直接填充至模块,而没有考虑有效文本填充后的表述结构,对于存在非结构化文本的模块,很有可能造成模块的文本是多个有效文本的机械式组合,模块的文本不符合自然语言表述结构,进而导致利用已填充文本的模块得到的待生成文本也存在不符合自然语言表述结构的问题。以上述某一热点新闻的“正文”模块为例,“正文”模块的文本需求信息是“2018年世界杯”。针对“正文”模块,从资料库中确定的符合文本需求信息的有效文本包括:“世界杯首次在俄罗斯境内举行”、“2018年世界杯在俄罗斯境内11座城市中的12座球场内举行”以及“比赛将于2018年6月14日至7月15日举行”。由于“正文”模块的文本是表述结构不固定的非结构化文本,直接将有效文本填充至模块,生成的正文文本可能是“比赛将于2018年6月14日至7月15日举行,2018年世界杯在俄罗斯境内11座城市中的12座球场内举行,世界杯首次在俄罗斯境内举行”。而符合自然语言表述结构的文本可以是“2018年世界杯比赛将于2018年6月14日至7月15日,在俄罗斯境内11座城市中的12座球场内举行,这是世界杯首次在俄罗斯境内举行”。可见,对于存在非结构化文本的模块而言,将有效内容直接填充至模块,用以生成待生成文本时,所生成的待生成文本将存在文本结构不符合自然语言表述结构的问题。
发明内容
本发明实施例的目的在于提供一种文本生成方法、装置及设备,以实现生成符合自然语言表述结构的文本的目的。具体技术方案如下:
第一方面,本发明实施例提供了一种文本生成方法,该方法包括:
针对待生成文本的固定写作格式中的每个模块,从预设资料库中获取符合该模块的需求信息的多个有效文本,需求信息用于表明该模块对应的文本,且各模块的文本用于描述同一事件;
针对每个模块,将该模块的多个有效文本分别输入预先训练得到的第一循环神经网络,得到每个有效文本的第一特征向量,第一循环神经网络为以多个预先收集的符合指定需求信息的样本有效文本进行训练得到的;
针对每个模块,将每个有效文本的第一特征向量分别输入预先训练得到的记忆网络,得到每个有效文本中的各分词在第一待生成文本中的第一位置信息,第一待生成文本为该模块对应的文本,且第一待生成文本的文本结构与记忆网络中的第一样本文本的文本结构相同,第一样本文本为符合自然语言表述结构、且符合指定需求信息的文本,记忆网络为以多个预先收集的第一样本文本进行训练得到的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810846953.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带防尘盖的齿轴
- 下一篇:一种减小风阻的LED路灯