[发明专利]一种文本对融合方法及装置有效
申请号: | 201911096632.1 | 申请日: | 2019-11-11 |
公开(公告)号: | CN110825863B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 周辉阳 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/284 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 彭绪坤 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 融合 方法 装置 | ||
本申请实施例公开了一种文本对融合方法及装置;本申请实施例在获取到待融合文本对后,对待融合文本对进行分词处理,得到待融合文本对对应的关键分词,基于关键分词从预设文本集中确定候选文本对,接着,获取待融合文本对与候选文本对之间的相似度、编辑距离,并基于相似度和编辑距离,从候选文本对中确定至少一个目标文本对,将待融合文本对、与预设文本集中的目标文本对进行融合,得到融合后文本集;由于本申请实施例是基于待融合文本对中的关键分词从预设文本集中先获取候选文本对,再通过相似度和编辑距离确定目标文本对,从而可以减少融合需要的时间、提高融合效果。
技术领域
本申请涉及通信技术领域,具体涉及一种文本对融合方法及装置。
背景技术
在问答对数据构建的过程中,一般是把用户上传的问答对直接导入数据库中;或者,有的问答对在导入前与数据库中的问答对进行融合。然而,现有技术中的问答对之间的融合效果较差。
发明内容
本申请实施例提供一种文本对融合方法及装置,可以提高融合效果。
本申请实施例提供一种文本融合方法,包括:
获取待融合文本对;
对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
基于所述关键分词从预设文本集中确定候选文本对,所述预设文本集包括至少一个文本对;
获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
相应的,本申请实施例还提供一种文本融合装置,包括:
获取模块,所述获取模块用于获取待融合文本对;
分词模块,所述分词模块用于对所述待融合文本对进行分词处理,得到所述待融合文本对对应的关键分词;
第一确定模块,所述确定模块用于基于所述关键分词从预设文本集中确定候选文本对,所述预设文本集包括至少一个文本对;
第二确定模块,所述第二确定模块用于获取所述待融合文本对与候选文本对之间的相似度、编辑距离,并基于所述相似度和所述编辑距离,从所述候选文本对中确定至少一个目标文本对;
融合模块,所述融合模块用于将所述待融合文本对、与所述预设文本集中的目标文本对进行融合,得到融合后文本集。
可选的,在本申请的一些实施例中,所述分词模块,包括:
第一分词子单元,所述第一分词子单元用于对所述待融合文本对中的文本进行分词处理,得到候选分词;
第一获取子单元,所述第一获取子单元用于获取所述候选分词的词性和词频,所述词频为所述候选分词在所述预设文本集中出现的频次;
第一确定子单元,所述第一确定子单元用于基于所述候选分词的词性和词频,在所述候选分词中确定关键分词,得到所述待融合文本对对应的关键分词。
可选的,在本申请的一些实施例中,所述第一确定子单元具体用于:
当所述候选分词的词性为预设词性、且所述候选分词的词频小于第一预设阈值时,将所述候选分词确定为关键分词。
可选的,在本申请的一些实施例中,所述第一确定模块,包括:
选取子单元,所述选取子单元用于基于所述关键分词从所述预设文本集中选取预选文本对;
第二分词子单元,所述第二分词子单元用于对所述预选文本对进行分词处理,得到所述预选文本对对应的预选分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911096632.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种混凝土预制件检测装置
- 下一篇:一种混合饲料的添加剂及其制作工艺