[发明专利]一种文本对融合方法及装置有效
申请号: | 201911096632.1 | 申请日: | 2019-11-11 |
公开(公告)号: | CN110825863B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 周辉阳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 融合 方法 装置 | ||
1.一种文本对融合方法,其特征在于,包括:
获取待融合文本对;
对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
通过每个所述关键分词从预设文本集中选取预选文本对,所述预设文本集包括至少一个文本对;
对所述预选文本对进行分词处理,得到所述预选文本对对应的预选分词;
基于所述预选分词和所述关键分词,从所述预选文本对中确定候选文本对;
获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
2.根据权利要求1所述的文本对融合方法,其特征在于,所述对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词,包括:
对所述待融合文本对中的文本进行分词处理,得到候选分词;
获取所述候选分词的词性和词频,所述词频为所述候选分词在所述预设文本集中出现的频次;
基于所述候选分词的词性和词频,在所述候选分词中确定关键分词,得到所述待融合文本对对应的关键分词。
3.根据权利要求2所述的文本对融合方法,其特征在于,所述基于所述候选分词的词性和词频,在所述候选分词中确定关键分词,包括:
当所述候选分词的词性为预设词性、且所述候选分词的词频小于第一预设阈值时,将所述候选分词确定为关键分词。
4.根据权利要求1所述的文本对融合方法,其特征在于,所述基于所述预选分词和所述关键分词,从所述预选文本对中确定候选文本对,包括:
获取所述预选分词与所述关键分词的匹配分词的数量;
基于所述匹配分词的数量,从所述预选文本对中确定候选文本对。
5.根据权利要求 1所述的文本对融合方法,其特征在于,所述获取所述待融合文本对与候选文本对之间的相似度,包括:
获取待融合文本向量以及候选文本向量,所述待融合文本向量为所述待融合文本对中文本对应的向量,所述候选文本向量为所述候选文本对中文本对应的向量;
基于所述待融合文本向量与候选文本向量,计算所述待融合文本向量与候选文本向量的相似度;
基于所述相似度获取所述待融合文本对与候选文本对之间的相似度。
6.根据权利要求1所述的文本对融合方法,其特征在于,所述将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集,包括:当所述待融合文本对中的文本与所述目标文本对中的文本匹配时,将所述待融合文本对中的文本添加至所述目标文本对中的文本进行融合,得到融合后文本集。
7.根据权利要求6所述的文本对融合方法,其特征在于,还包括:当所述待融合文本对中的文本与所述目标文本对中的文本不匹配时,将所述待融合文本对中的文本添加至所述目标文本对中,得到融合后文本集。
8.根据权利要求1所述的文本对 融合方法,其特征在于,所述获取待融合文本对之后,还包括:
对所述待融合文本对进行编码处理,得到所述待融合文本对对应的编码;
所述获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对,包括:获取所述待融合文本对与候选文本对之间的相似度、编辑距离、及所述待融合文本对对应的编码,并基于所述相似度、所述编辑距离、和所述编码,从所述候选文本对中确定至少一个目标文本对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911096632.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土预制件检测装置
- 下一篇:一种混合饲料的添加剂及其制作工艺