[发明专利]文本匹配方法、装置及电子设备在审
申请号: | 202010492261.5 | 申请日: | 2020-06-02 |
公开(公告)号: | CN111708862A | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 王传鹏;陈春梅;李匡宇 | 申请(专利权)人: | 上海硬通网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈志明 |
地址: | 201800 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 电子设备 | ||
本申请公开了一种文本匹配方法、装置及电子设备,获取终端的输入文本,根据所述输入文本生成第一词集;将所述第一词集与根据目标文本生成的第二词集进行元素合并,生成组合词集;对所述组合词集进行降维处理,简化所述组合词集,并根据第一词集与第二词集生成的特征词集在简化后的所述组合词集中的元素占比,获取所述输入文本与所述目标文本的文本相似度分值;其中,所述特征词集为所述第一词集与所述第二词集之间相同的元素形成的词集;检测所述文本相似度分值是否大于预设阈值,并在检测到所述文本相似度分值大于预设阈值后,将所述目标文本作为所述输入文本的匹配文本。提升了文本相似度分值,提升了文本匹配的准确度。
技术领域
本申请涉及文本匹配技术领域,特别涉及一种文本匹配方法、装置及电子设备。
背景技术
自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题。
现有的文本匹配中,通常利用杰卡德相似系数进行文本匹配,杰卡德相似系数用于比较有限样本集之间的相似性与差异性,杰卡德相似系数值越大,样本相似度越高。在对话系统中,一般设置有知识库,知识库中预先录入问题句子和对应的答案句子,在进行文本匹配时,将知识库中问题句子作为与用户的输入文本进行匹配的目标文本,从而根据输入文本与目标文本获取对应的杰卡德相似系数。在获取到的杰卡德相似系数达到预设的阈值时,对话系统可以自动反馈给用户与该目标文本对应的答案句子。
然而在采用现有的基于杰卡德相似系数的文本匹配方法进行文本匹配时,发现若当输入文本中包含有过多与用户目的无关的词汇,会导致虽然输入文本中用于表示用户目的的词汇很精确,但输入文本与最相似的目标文本的杰卡德相似系数可能过低,导致无法准确匹配,从而降低了文本匹配的准确度。
发明内容
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种文本匹配方法、装置、计算机可读存储介质以及电子设备,解决由于输入文本中包含过多与用户目的无关的词汇而造成文本匹配准确度降低的技术问题。
第一方面,本申请实施例提供一种文本匹配方法,包括:
获取终端的输入文本,根据所述输入文本生成第一词集;
将所述第一词集与根据目标文本生成的第二词集进行元素合并,生成组合词集;其中,所述目标文本为数据库中的任一文本;
对所述组合词集进行降维处理,简化所述组合词集的元素数量,并根据第一词集与第二词集生成的特征词集的元素量在简化后的所述组合词集的元素量中的占比,获取所述输入文本与所述目标文本的文本相似度分值;其中,所述特征词集为所述第一词集与所述第二词集之间相同的元素形成的词集;
检测所述文本相似度分值是否大于预设阈值,并在检测到所述文本相似度分值大于预设阈值后,将所述目标文本作为所述输入文本的匹配文本。
第二方面,本申请实施例提供一种文本匹配装置,包括:
数据获取模块,用于获取终端的输入文本,根据所述输入文本生成第一词集;
数据合并模块,用于将所述第一词集与根据目标文本生成的第二词集进行元素合并,生成组合词集;其中,所述目标文本为数据库中的任一文本;
数据处理模块,用于对所述组合词集进行降维处理,简化所述组合词集的元素数量,并根据第一词集与第二词集生成的特征词集的元素量在简化后的所述组合词集的元素量中的占比,获取所述输入文本与所述目标文本的文本相似度分值;其中,所述特征词集为所述第一词集与所述第二词集之间相同的元素形成的词集;
数据检测模块,用于检测所述文本相似度分值是否大于预设阈值,并在检测到所述文本相似度分值大于预设阈值后,将所述目标文本作为所述输入文本的匹配文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海硬通网络科技有限公司,未经上海硬通网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492261.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种导光光扩散PC材料及其制备方法
- 下一篇:文本分类方法、装置及电子设备