[发明专利]文本生成方法、装置、设备以及存储介质有效
申请号: | 202010328590.6 | 申请日: | 2020-04-23 |
公开(公告)号: | CN111597779B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 黄文璨;邱东洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F16/33;G06F40/126 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 设备 以及 存储 介质 | ||
本申请公开了一种文本生成方法、装置、设备以及存储介质,属于数据处理领域,方法包括:获取第一文本。基于所述第一文本中的字符,获取所述第一文本的语义特征。也就是说在这个过程中是以第一位文本的字符为单位进行语义特征的提取,语义特征从一定程度上反映了字符之间的关系,语义特征的提取更加准确。基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的概率。这样可以生成表述方式不同的文本,提高文本生成的多样性。基于所述概率符合目标概率条件的备选字符,生成多个第二文本。通过上述技术方案,服务器可以保证对第一文本语义特征提取准确性的前提下,通过隐特征提高生成文本的多样性,达到了更好的文本生成效果。
技术领域
本申请涉及数据处理领域,特别涉及一种文本生成方法、装置、设备以及存储介质。
背景技术
随着计算机技术的发展,一些情况下需要生成与语义相似且表述方式不同的文本来扩充文本数据库,便于后续基于文本数据库中的文本进行相应的查询操作。
相关技术中会通过一些基本的规则来生成与某一文本语义相似,但是表述方式不同的文本,从而扩充文本数据库,比如对该文本中的关键字或短语进行替换、语义平移或引入噪声等。由于规则可能无法适用于所有的文本,因此,采用上述扩充方式生成的文本可能会改变原文本的语义,导致生成的文本与原文本之间语义差别较大,文本生成的效果不佳。
发明内容
本申请实施例提供了一种文本生成方法、装置、设备以及存储介质,可以提升文本生成的效果。所述技术方案如下:
一方面,提供了一种文本生成方法,所述方法包括:
获取第一文本;
基于所述第一文本中的字符,获取所述第一文本的语义特征;
基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的概率,所述概率用于表示所述备选字符在生成文本时的出现概率;
基于所述概率符合目标概率条件的备选字符,生成多个第二文本。
一方面,提供了一种文本生成装置,所述装置包括:
文本获取模块,用于获取第一文本;
语义特征获取模块,用于基于所述第一文本中的字符,获取所述第一文本的语义特征;
概率确定模块,用于基于随机生成的隐特征以及所述第一文本的语义特征,得到多个备选字符对应的概率,所述概率用于表示所述备选字符在生成文本时的出现概率;
生成模块,用于基于所述概率符合目标概率条件的备选字符,生成多个第二文本。
在一种可能的实施方式中,所述语义特征获取模块,还用于对所述第一文本中的字符进行嵌入编码,得到字符特征;为所述字符特征添加位置特征,基于注意力权重和添加位置特征后的字符特征,获取所述第一文本的语义特征,所述位置特征用于表示所述第一文本中的字符在所述第一文本中的位置。
在一种可能的实施方式中,所述概率确定模块,用于将所述隐特征以及所述第一文本的语义特征进行拼接,得到所述第一文本对应的第一融合特征;基于所述第一融合特征和所述第一文本的语义特征,得到多个备选字符对应的概率。
在一种可能的实施方式中,所述概率确定模块,用于对所述第一融合特征和所述第一文本的语义特征进行归一化处理,得到所述多个备选字符对应的第一概率和第二概率,所述第一概率用于表示多个备选字符对应的初始概率,所述第二概率用于表示采用备选字符对所述第一文本中的原字符进行替换的概率;基于所述第一概率和所述第二概率的乘积,得到多个备选字符对应的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010328590.6/2.html,转载请声明来源钻瓜专利网。