[发明专利]一种智能语义检索方法、系统和电子设备在审
申请号: | 202011211472.3 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112035598A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 李蒙;张常睿 | 申请(专利权)人: | 北京淇瑀信息科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 乔东峰 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 语义 检索 方法 系统 电子设备 | ||
本发明提供了一种智能语义检索方法、系统和电子设备。该方法包括:构建索引库,该索引库包括扩展词索引和索引句;接收用户输入的检索语句,并对该检索语句进行关键词提取,以生成至少一个关键词;基于所述关键词,通过查询所述索引库的扩展词索引获得各关键词的扩展词;将所提取的各关键词和各关键词的扩展词作为检索词集,在所述索引库中匹配索引句,获得匹配的索引句列表;计算所述检索词集中各词与所述索引句列表中的各索引句的向量相似度,对所述各索引句进行排序;基于排序靠前的至少一个索引句,获取检索结果。本发明的方法实现了更智能化的检索,提高了检索效率和准确度,优化了检索方法,还提高了召回率。
技术领域
本发明涉及计算机信息处理领域,具体涉及一种智能语义检索方法、系统和电子设备。
背景技术
随着计算机网络技术的飞速发展,大量丰富的信息为人们生活和工作带来方便,如何准确、快速的获取有用的信息越来越重要。如果计算机能够准确理解用户的需求,它就可以将最符合用户需求的信息检索出来并呈现给用户。准确理解用户的需求在一定程度上就是准确理解用户输入的含义,因而,建立基于语义的检索非常重要,它使计算机的检索更具有智能性,进而实现智能检索。
现有的检索模型主要有布尔模型、概率模型和向量空间模型。但无论采用哪种模型,都是基于关键字匹配进行检索的,都不能从根本上解决词的同义和多义问题。此外,现有的语义分析方法可以实现部分的语义检索,但效果不是很理想,语义计算的准确率不高。
因此,有必要提供一种更有效的智能语义检索方法。
发明内容
为了进一步优化检索方法,本发明提供了一种智能语义检索方法,包括:构建索引库,该索引库包括扩展词索引和索引句,扩展词索引包括多个语义相近的词以及这些词的词向量,索引句为用于召回检索结果的句子,该索引库为每个索引句建立一个句向量,该句向量是索引句中各关键词的词向量的均值;接收用户输入的检索语句,并对该检索语句进行关键词提取,以生成至少一个关键词;基于所述关键词,通过查询所述索引库的扩展词索引获得各关键词的扩展词;将所提取的各关键词和各关键词的扩展词作为检索词集,在所述索引库中匹配索引句,获得匹配的索引句列表;计算所述检索词集中各词与所述索引句列表中的各索引句的向量相似度,对所述各索引句进行排序;基于排序靠前的至少一个索引句,获取检索结果。
优选地,所述计算所述检索词集中各词与所述索引句列表中的各索引句的向量相似度,对所述各索引句进行排序包括:基于检索词集中的词在索引句中的命中率和所述相似度的综合评分进行排序。
优选地,所述综合评分等于所述词在索引句中的命中率与第一权重系数的乘积和所述相似度与第二权重系数的乘积之和。
优选地,基于关系重要度的确定,设定第一权重系数和第二权重系数,其中,所述第一权重系数大于所述第二权重系数。
优选地,所述第一权重系数大于0.5,且所述第二权重系数小于0.5。
优选地,所述基于排序靠前的至少一个索引句,获取检索结果包括:从根据综合评分而确定的排序结果中,自高分到低分依次筛选出特定数量的索引句,并以所述特定数量的索引句作为检索结果。
优选地,所述构建索引库包括:获取历史对话文本信息,并进行预处理和分词处理,以生成扩展词索引和索引句。
优选地,还包括:对所述检索语句进行归一化处理和分词处理,并通过TF-IDF方法进行关键词提取。
优选地,还包括:使用word2vec模型、BERT模型和RoBERTa模型进行词向量转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京淇瑀信息科技有限公司,未经北京淇瑀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211472.3/2.html,转载请声明来源钻瓜专利网。