[发明专利]文本匹配方法、装置及终端设备有效
申请号: | 202010231960.4 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111460098B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 赵洋;李硕;梅金芳;王瑗 | 申请(专利权)人: | 深圳价值在线信息科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
地址: | 518000 广东省深圳市福田区沙头街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 终端设备 | ||
本申请适用于文本识别技术领域,提供了文本匹配方法、装置及终端设备,该文本匹配方法包括:获取第一待匹配文档和第二待匹配文档,然后将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,并计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于该相似度确定与当前第一待匹配文本匹配的第二待匹配文本,从而实现第一待匹配文档和第二待匹配文档之间的多文本匹配,能够提高多文本之间的匹配效率。
技术领域
本申请属于文本识别技术领域,尤其涉及文本匹配方法、装置及终端设备。
背景技术
随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个文档之间的文本相似度,能极大地提高系统自动问答的精度。而在文档匹配与校对工作中,若两个文档内容段落较多时,在两个文档中查找相似文本段落需要投入大量的时间与人力,查找效率比较低。
发明内容
为克服相关技术中存在的问题,本申请实施例提供了文本匹配方法、装置及终端设备。
本申请是通过如下技术方案实现的:
第一方面,本申请实施例提供了一种文本匹配方法,包括:
获取第一待匹配文档和第二待匹配文档;
将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本;
计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本;其中,所述当前第一待匹配文本为任一所述第一待匹配文本。
在第一方面的第一种可能的实现方式中,所述将所述第一待匹配文档划分为至少一个第一待匹配文本,包括:
按照文本段落将所述第一待匹配文档划分为至少一个第一待匹配文本;
所述将所述第二待匹配文档划分为至少一个第二待匹配文本,包括:
按照文本段落将所述第二待匹配文档划分为至少一个第二待匹配文本。
在第一方面的第二种可能的实现方式中,每个所述第一待匹配文本包含一个第一业务主语,每个所述第二待匹配文本包含一个第二业务主语;
在所述计算当前第一待匹配文本与各个第二待匹配文本的相似度之前,所述方法还包括:
检测所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语是否相同;
其中,当前第二待匹配文本为任一第二待匹配文本,且在所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,执行所述计算当前第一待匹配文本与各个第二待匹配文本的相似度的步骤。
在第一方面的第三种可能的实现方式中,所述计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本,包括:
计算当前第一待匹配文本与当前第二待匹配文本的余弦相似度;
将余弦相似度大于相似度阈值的第二待匹配文本,作为与当前第一待匹配文本匹配的第二待匹配文本。
在第一方面的第四种可能的实现方式中,所述计算当前第一待匹配文本与各个第二待匹配文本的余弦相似度,包括:
将所述当前第一待匹配文本进行分词处理,得到多个第一分词;
对当前第二待匹配文本进行分词处理,得到多个第二分词;其中,当前第二待匹配文本为任一第二待匹配文本;
计算各个第一分词的第一词频,并基于所述第一词频确定第一词频向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳价值在线信息科技股份有限公司,未经深圳价值在线信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010231960.4/2.html,转载请声明来源钻瓜专利网。