[发明专利]检索处理方法在审
申请号: | 201911082817.7 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110866102A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 潘心冰;李明明;曾光;张红若 | 申请(专利权)人: | 浪潮软件股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 程佩玉 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 处理 方法 | ||
本发明实施例公开一种检索处理方法,能够提高海量检索的检索效率。该检索处理方法包括:获取问题,从所述问题中提取至少一个关键词;确定用于检索所述问题对应答案的海量文档库;根据与所述至少一个关键词的关联度,从所述海量文档库中提取与所述问题的相关文档组成关联文档集合;从所述关联文档集合中检索所述问题对应的答案。本发明实施例获取问题,从问题中提取至少一个关键词,确定用于检索问题对应答案的海量文档库,根据与至少一个关键词的关联度,从海量文档库中提取与问题的相关文档组成关联文档集合,从关联文档集合中检索问题对应的答案。从而根据问题从海量文档库选取关联文档在关联文档中检索答案,以提高海量检索的检索效率。
技术领域
本发明涉及检索领域,尤其涉及一种检索处理方法。
背景技术
在信息时代信息呈爆炸式增长,从海量信息中快速检索获取用户问题对应的答案成为智能对话系统领域的关键之一。随着文档数量的增加,例如在产品说明书、法律文献等海量文档中,检索数据量巨大,常导致查询速度较慢甚至查询失败。
发明内容
本发明实施例提供一种检索处理方法,能够提高海量检索的检索效率。
本发明实施例采用如下技术方案:
一种检索处理方法,包括:
获取问题,从所述问题中提取至少一个关键词;
确定用于检索所述问题对应答案的海量文档库;
根据与所述至少一个关键词的关联度,从所述海量文档库中提取与所述问题关联的文档组成关联文档集合;
从所述关联文档集合中检索所述问题对应的结果。
可选的,所述根据与所述至少一个关键词的关联度,从所述海量文档库中提取与所述问题关联的文档组成关联文档集合包括:
获取所述海量文档库中每篇文档的主题,将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的主题进行匹配,得到所述关键词的第一系列概率;
将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配,得到所述关键词的第二系列概率;
根据所述第一系列概率及所述第二系列概率,从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合。
可选的,所述获取所述海量文档库中每篇文档的主题包括:
基于LDA算法构建主题模型;
根据所述主题模型确定所述海量文档库中每篇文档的主题。
可选的,所述根据所述主题模型确定所述海量文档库中每篇文档的主题包括:
根据所述主题模型确定所述海量文档库中每篇文档的一系列备选主题及每个备选主题的概率;
根据每个备选主题的概率,确定所述海量文档库中每篇文档的主题,所述海量文档库中每篇文档的主题可以为一个或者多个。
可选的,所述将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配,得到所述关键词的第二系列概率包括:
根据TF-IDF算法、BM25算法和ES算法中至少一种算法,建立海量文档库的语义相似度模型;
基于所述语义相似度模型,将所述至少一个关键词中每个关键词与所述海量文档库中每篇文档的语义相似度进行匹配,得到所述关键词的第二系列概率。
可选的,所述根据所述第一系列概率及所述第二系列概率,从所述海量文档库中提取与所述问题关联的文档组成所述关联文档集合包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911082817.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动清洗气管套管机
- 下一篇:一种集尘方法、装置、集尘系统及可读存储介质