[发明专利]一种文本模糊匹配方法和装置在审
申请号: | 202010213163.3 | 申请日: | 2020-03-24 |
公开(公告)号: | CN113449522A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 曹希保;曾楚伟;李斌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/2458 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 汪阮磊 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 模糊 匹配 方法 装置 | ||
本申请公开了一种文本模糊匹配方法和装置;本申请可以获取待模糊匹配词;基于所述待模糊匹配词从预设词集合中确定目标分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词,基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识,基于所述目标分词的第二相邻分词,更新所述模糊匹配集,获取所述待模糊匹配词的模糊匹配结果;本申请通过对模糊匹配算法进行改进,可以提高检索效率。
技术领域
本申请涉及计算机技术领域,具体涉及一种文本模糊匹配方法和装置。
背景技术
随着互联网的迅速发展,网络上的文本数据爆炸式地增长。文本检索服务能够根据用户所提供的查询关键词,帮助用户从海量文本数据中快速地获取想要的数据。文本检索广泛地应用于网络信息服务的各个领域,如数字图书馆、电子商务网站和企业信息管理等。文本模糊匹配是用户在文本检索过程中的核心功能。
在目前的相关技术中,部分模糊匹配算法是通过遍历词典的方式来找到满足模糊匹配的词,存在检索效率较低的问题。
发明内容
本申请实施例提供一种文本模糊匹配方法和装置,可以提高检索效率。
本申请实施例提供一种文本模糊匹配方法,包括:
获取待模糊匹配词;
基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;
基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;
将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识;
基于所述目标分词的第二相邻分词,更新所述模糊匹配集;
基于更新后的模糊匹配集,获取所述待模糊匹配词的模糊匹配结果。
相应的,本申请实施例提供一种文本模糊匹配装置,包括:
第一获取单元,用于获取待模糊匹配词;
确定单元,用于基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;
第二获取单元,用于基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;
添加单元,用于将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识;
更新单元,用于基于所述目标分词的第二相邻分词,更新所述模糊匹配集;
第三获取单元,用于基于更新后的模糊匹配集,获取所述待模糊匹配词的模糊匹配结果。
可选的,在本申请的一些实施例中,所述更新单元可以包括获取子单元、添加子单元和循环子单元,如下:
所述获取子单元,用于当所述目标分词的第二相邻分词的词前缀包含所述待模糊匹配词时,基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识;
添加子单元,用于将所述目标分词的第二相邻分词对应的文档标识添加到所述模糊匹配集中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010213163.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超柔性透明半导体薄膜及其制备方法
- 下一篇:管路连接装置