[发明专利]文本生成方法、装置、终端和存储介质有效
申请号: | 201911204286.4 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110888970B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 王子璇;闫桂霞;王晓利 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/211 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 蔡艾莹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 生成 方法 装置 终端 存储 介质 | ||
1.一种文本生成方法,其特征在于,包括:
获取用户历史文本的候选句集合,所述候选句集合中包括多个候选句;
对所述候选句集合中的候选句进行关联分析,得到所述候选句的频繁项集,所述频繁项集中包括多个频繁项;
基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到候选句组;
基于所述频繁项集在所述候选句组中确定代表句;
生成目标文本,所述目标文本中包括所述代表句。
2.如权利要求1所述的文本生成方法,其特征在于,基于所述频繁项对所述候选句集合中的候选句进行聚类处理,得到候选句组,包括:
计算所述候选句相对于所述频繁项集中所有频繁项的频繁程度;
基于所述频繁程度在所述频繁项集中确定目标频繁项;
基于所述目标频繁项对所述候选句进行初始分组处理,得到初始候选句组;
对所述初始候选句组中的候选句进行层次聚类处理,得到多候选句组。
3.如权利要求2所述的文本生成方法,其特征在于,所述频繁项中包括至少一个子频繁项,所述候选句中包括多个字词,计算所述候选句相对于所述频繁项集中所有频繁项的频繁程度,包括:
统计所述候选句中字词的个数、所述候选句中所述频繁项出现的次数,以及所述频繁项中子频繁项的个数;
根据所述字词的个数和所述频繁项出现的次数计算频繁项占比;
基于所述频繁项占比以及所述频繁项中子频繁项的个数计算所述频繁项的频繁程度。
4.如权利要求2所述的文本生成方法,其特征在于,对所述初始候选句组中的候选句进行层次聚类处理,得到候选句组,包括:
将所述初始候选句组中的每个候选句进行向量化处理,得到初始候选句组中每个候选句的句向量;
根据所述句向量计算初始候选句组之间的组平均聚类距离;
基于所述平均聚类距离将所述初始候选句组进行聚类融合,得到候选句组。
5.如权利要求1所述的文本生成方法,其特征在于,所述获取用户历史文本的候选句集合,包括:
获取用户历史文本;
对所述用户历史文本进行关键词提取,得到述用户历史文本中的关键词;
基于所述关键词对所述用户历史文本进行文本拆分,得到候选句集合,所述候选句集合中包括多个候选句。
6.如权利要求5所述的文本生成方法,其特征在于,所述关键词包括高频关键词、语义关键词、疑问关键词、其它关键词,基于所述关键词对所述用户历史文本进行文本拆分,得到候选句集合,包括:
对所述用户历史文本拆分组合处理,得到多个子文本;
统计所述子文本中关键词的个数;
当所述子文本中存在所述疑问关键词时,基于所述疑问关键词个数、高频关键词个数、语义关键词个数以及其它关键词个数计算所述子文本的关键词有效率;
当所述子文本中不存在所述疑问关键词时,基于所述高频关键词个数、语义关键词个数以及其它关键词个数计算所述子文本的关键词有效率;
根据所述关键词有效率从多个子文本中确定候选句。
7.如权利要求5所述的文本生成方法,其特征在于,所述关键词包括高频关键词和语义关键词,所述用户历史文本中包括多个字词,对所述用户历史文本进行关键词提取,得到述用户历史文本中的关键词,包括:
获取预设的专业词集合,所述预设的专业词集合中包括多个专业词;
对所述用户历史文本中的字词进行关键词分析,得到所述用户历史文本中的高频关键词;
在所述用户历史文本中,基于所述高频关键词将与所述专业词语义相似的字词确定为语义关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911204286.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:工作电路及其过流保护电路
- 下一篇:干扰测试方法、装置、终端及存储介质