[发明专利]词语搜索方法及装置、存储介质、终端在审
申请号: | 202210223120.2 | 申请日: | 2022-03-07 |
公开(公告)号: | CN114741486A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 周婷;曾曲;蒋兴荣;白欢朋 | 申请(专利权)人: | 北京华通人商用信息有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/247;G06F40/289 |
代理公司: | 北京智源荟诚知识产权代理事务所(普通合伙) 11830 | 代理人: | 盛惠华 |
地址: | 100070 北京市丰台区南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词语 搜索 方法 装置 存储 介质 终端 | ||
本发明公开了一种词语搜索方法及装置、存储介质、终端,涉及自然语言处理技术搜索领域,主要目的在于解决现有词语搜索准确性差的问题。包括:获取目标搜索领域中待搜索的目标词语;基于关联度对照关系在所述目标搜索领域中搜索与所述目标词语匹配的至少一个关联词语,并确定搜索到的所述关联词语与所述目标词语之间的相似度值,所述关联度对照关系中存储有不同搜索领域中不同搜索词语对应的至少一个关联词语,以及不同关联词语之间处于不同搜索领域中所具有的关联度;若所述相似度值大于或等于预设关联相似度阈值,则将所述关联词语确定为所述目标词语的搜索结果。主要用于词语搜索。
本发明涉及一种自然语言处理技术搜索领域,特别是涉及一种词语搜索方法及装置、存储介质、终端。
背景技术
随着大数据技术的快速发展,越来越多的应用搜索领域需要对数据进行统计,从而基于得到的统计指标来表征业务情况。其中,为了满足不同业务的处理需求,会对统计指标进行搜索,以实现各搜索领域的应用,例如,按照统计搜索领域的专业词汇进行搜索,从而实现统计搜索领域统计指标的一种模糊搜索查询。
目前,现有针对统计搜索领域的统计指标的搜索,通常利用作为统计指标的词语名称结合搜索引擎进行搜索,此时,作为统计指标的词语名称为若干定语和主体词语组成的一个词组,而非自然语义样本,具有极强的科学专业性,因此,通常在统计指标的词语名称数据库中以SQL的LIKE查询方式进行查询,或者采用全文搜索引擎工具对统计指标的词语名称进行分词索引编制,进而实现搜索。但是,上述两种方式对于极强科学专业性的词语,搜索准确性差,无法从其他非统计搜索领域中精准地搜索到统计专业性的目标词语名称,大大影响了具有专业性较强词语在不同领域中的搜索准确性,因此,亟需一种词语搜索方法来解决上述问题。
发明内容
有鉴于此,本发明提供一种词语搜索方法及装置、存储介质、终端,主要目的在于解决现有词语搜索准确性差的问题。
依据本发明一个方面,提供了一种词语搜索方法,包括:
获取目标搜索领域中待搜索的目标词语;
基于关联度对照关系在所述目标搜索领域中搜索与所述目标词语匹配的至少一个关联词语,并确定搜索到的所述关联词语与所述目标词语之间的相似度值,所述关联度对照关系中存储有不同搜索领域中不同搜索词语对应的至少一个关联词语,以及不同关联词语之间处于不同搜索领域中所具有的关联度;
若所述相似度值大于或等于预设关联相似度阈值,则将所述关联词语确定为所述目标词语的搜索结果。
进一步地,所述获取目标搜索领域中待搜索的目标词语之前,所述方法还包括:
从多个数据源自然语言词库中获取各搜索领域中的同义词语、具有包含关系的同类词语、以及简写类词语;
基于所述同义词语、所述同类词语、以及所述简写类词语建立不同词语之间的关联关系,确定不同词语所对应的关联词语;
按照预设关联度重合特征为不同关联词语之间配置关联度;
基于不同关联词语,以及所述关联词语之间配置的关联度生成关联度对照关系。
进一步地,所述按照预设关联度重合特征为不同关联词语之间配置关联度包括:
确定具有关联关系的两个关联词语的所属搜索领域,并按照所述搜索领域分别解析所述关联词语的对应词语概念;
确定所述词语概念之间的重合度,所述重合度用于表征所述关联词语之间在词语概念维度上的相同程度;
若所述词语概念的重合度大于或等于预设重合度阈值,则将所述重合度配置为所述关联词语之间的关联度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华通人商用信息有限公司,未经北京华通人商用信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210223120.2/2.html,转载请声明来源钻瓜专利网。