[发明专利]一种文本匹配方法、装置、设备及存储介质在审
申请号: | 202111371481.3 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114090735A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 谢作家;刘新华;刘银;谌礼尧;方秋琪;李滨;陈家立 | 申请(专利权)人: | 金蝶云科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴欣蔚 |
地址: | 523808 广东省东莞*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 匹配 方法 装置 设备 存储 介质 | ||
本申请公开了一种文本匹配方法、装置、设备及存储介质,包括:获取输入文本及待匹配资源数据;基于系统词库中的词语对输入文本和待匹配资源数据进行分词,得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组;计算第一关键词词组与第二关键词词组之间的相似度,并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。本申请基于系统词库分别对输入文本和待匹配资源数据进行匹配粒度较细的分词操作得到相应的第一关键词词组和第二关键词词组,使得分词结果更准确,然后通过计算第一关键词词组与第二关键词词组之间的相似度以确定待匹配资源数据中与输入文本相匹配的资源数据,提高轻量级场景中文本匹配精度。
技术领域
本发明涉及计算机技术领域,特别涉及一种文本匹配方法、装置、设备及存储介质。
背景技术
传统的输入匹配方法都是基于用户输入的关键字进行全包含的模糊匹配,在数据的匹配上粒度太粗,且用于匹配的词库相对来说也比较封锁。往往会使得匹配结果不准确,得不到理想的匹配资源数据。另外,现有的ElasticSearch技术通过搭建es服务器进行搜索匹配,但由于需要搭建es服务器,适用于专门做搜索的业务场景,如重量级较高的搜索引擎等,但对于仅需使用一个小而轻搜索工具的场景,搭建es服务器成本投入较大,在轻量型场景中文本匹配资源利用率较低。
因此,如何提高轻量级场景下文本匹配精度是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种文本匹配方法、装置、设备及存储介质,提高轻量级场景中文本匹配精度。其具体方案如下:
本申请的第一方面提供了一种文本匹配方法,包括:
获取输入文本及待匹配资源数据;
基于系统词库中的词语对输入文本和待匹配资源数据进行分词,得到与输入文本对应的第一关键词词组及与待匹配资源数据对应的第二关键词词组;
计算第一关键词词组与第二关键词词组之间的相似度,并根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据。
可选的,基于系统词库中的词语对输入文本和待匹配资源数据进行分词,包括:
通过构建字典树的方式对系统词库中的词语进行存储,得到与系统词库对应的目标字典树;
通过遍历目标字典树分别对输入文本和待匹配资源数据中的词组进行匹配,以利用字典树算法对输入文本和待匹配资源数据进行分词。
可选的,计算第一关键词词组与第二关键词词组之间的相似度,包括:
利用余弦相似度算法计算第一关键词词组与第二关键词词组之间的相似度。
可选的,文本匹配方法,还包括:
创建包含字典树算法和余弦相似度算法的动态链接库;
通过从动态链接库中调用相应的算法对输入文本和待匹配资源数据进行分词或计算第一关键词词组与第二关键词词组之间的相似度。
可选的,根据相似度从待匹配资源数据中确定出与输入文本对应的资源数据,包括:
判断相似度是否大于预设阈值,如果是,则将相似度大于预设阈值的第二关键词词组对应的资源数据确定为与输入文本对应的资源数据。
可选的,判断相似度是否大于预设阈值之后,还包括:
如果相似度均小于预设阈值,则将第一关键词词组与关联词库中的词语进行匹配,以得到与第一关键词词组存在关联关系的关联词组;其中,关联词库中包括多个在历史匹配过程中具有关联关系的词语对及其之间的关联关系;
根据匹配到的关联词组与第二关键词词组之间的关联关系确定出与输入文本对应的资源数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金蝶云科技有限公司,未经金蝶云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111371481.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电磁斥力机构的故障诊断方法及装置
- 下一篇:一种多功能伸缩绝缘工刀