[发明专利]一种相似文本生成方法、相似文本生成装置及智能设备在审
申请号: | 202110141735.6 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112949293A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 熊为星 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/289;G06F40/284;G06K9/62;G06F16/33 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 肖遥 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 相似 文本 生成 方法 装置 智能 设备 | ||
1.一种相似文本生成方法,其特征在于,包括:
对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;
生成各个词语的相似词的词向量;
基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。
2.如权利要求1所述的相似文本生成方法,其特征在于,所述生成各个词语的相似词的词向量,包括:
针对每个词语,查找出所述词语的M个近义词,其中,M为大于2的正整数;
从所述M个近义词中,筛选得到与所述词语最相似的N个近义词,其中,N为小于M的正整数;
计算得到所述N个近义词的平均词向量,将所述平均词向量作为所述词语的相似词的词向量。
3.如权利要求2所述的相似文本生成方法,其特征在于,所述查找出所述词语的M个近义词,包括:
在预设的第一查找方法下,查找出所述词语的第一数量个近义词,其中,所述第一查找方法基于回译实现;
在预设的第二查找方法下,查找出所述词语的第二数量个近义词,其中,所述第二查找方法基于同义词林实现;
在预设的第三查找方法下,查找出所述词语的第三数量个近义词,其中,所述第三查找方法基于词向量的相似度实现;
基于所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词,获得M个近义词。
4.如权利要求3所述的相似文本生成方法,其特征在于,所述基于所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词,获得M个近义词,包括:
对所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词进行去重处理,获得M个近义词。
5.如权利要求2所述的相似文本生成方法,其特征在于,所述从所述M个近义词中,筛选得到与所述词语最相似的N个近义词,包括:
通过预训练的BERT模型,生成所述M个近义词的词向量以及所述词语的词向量;
计算所述M个近义词的词向量与所述词语的词向量的余弦相似度;
基于所述余弦相似度,从所述M个近义词中确定与所述词语最相似的N个近义词。
6.如权利要求2所述的相似文本生成方法,其特征在于,所述计算得到所述N个近义词的平均词向量,包括:
获取所述N个近义词的词向量,其中,每个词向量的维度相同,且每个词向量包括多个维度;
计算所述N个近义词的词向量在每个维度下的均值,以得到平均词向量。
7.如权利要求1至6任一项所述的相似文本生成方法,其特征在于,在所述生成所述输入语句的相似语句之后,所述相似文本生成方法还包括:
将所述相似语句及所述输入语句共同输入至已训练的语义判别模型中;
若所述语义判别模型判定所述相似语句与所述输入语句的语义相同,则保留所述相似语句;
若所述语义判别模型判定所述相似语句与所述输入语句的语义不同,则舍弃所述相似语句。
8.一种相似文本生成装置,其特征在于,包括:
分词单元,用于对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;
第一生成单元,用于生成各个词语的相似词的词向量;
第二生成单元,用于基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。
9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110141735.6/1.html,转载请声明来源钻瓜专利网。