[发明专利]问答系统的索引更新方法、装置、设备及存储介质在审
申请号: | 202010138638.7 | 申请日: | 2020-03-03 |
公开(公告)号: | CN111324689A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 李率厅 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 系统 索引 更新 方法 装置 设备 存储 介质 | ||
本发明涉及大数据技术领域,公开了一种问答系统的索引更新方法,包括:接收索引更新请求,并根据问答系统预置的配置信息确定待更新的目标问答引擎;基于索引更新请求,设置目标问答引擎为索引更新状态,并读取预置Redis中的索引序号,以获取对应索引的第一索引名;基于该索引名,从Redis中获取对应Annoy索引文件并加载到内存;以该索引名为检索式,从Elasticsearch中查询检索式的第二索引名,并将第二索引名作为目标问答引擎的最新ES索引;重置目标问答引擎的索引更新状态并根据配置信息确定下一待更新的目标问答引擎。本发明还公开了一种问答系统的索引更新装置、设备及计算机可读存储介质。本发明为用户提供了更精准的索引更新服务,保证索引更新流程的正确进行。
技术领域
本发明涉及大数据技术领域,尤其涉及一种问答系统的索引更新方法、装置、设备及计算机可读存储介质。
背景技术
近年来,随着人工智能的不断发展,在现有索引更新技术中,智能对话系统中的问答系统的通用架构主要是字面加语意召回,检索式大数据量检索通常使用Annoy算法,而检索式则使用Elasticsearch作为字面召回,将字面召回和语意召回的结果做一个重排续以获取最终的结果。Annoy算法的检索召回依赖于语意的Annoy索引,ES索引的字面召回基于Elasticsearch已经存储的待检索数据。
但因为当前索引的生成均依赖于离线人工处理的方式,整个索引更新的流程通过重启服务完成,导致索引更新的成本过大。因此,亟需提供一种可以不依赖离线人工处理的索引更新方法来解决上述问题。
发明内容
本发明的主要目的在于提供一种问答系统的索引更新方法、装置、设备及计算机可读存储介质,旨在解决当前索引的生成依赖离线人工处理而致使更新成本过大的技术问题。
为实现上述目的,本发明提供一种问答系统的索引更新方法,所述问答系统的索引更新方法包括以下步骤:
接收索引更新请求,并基于所述问答系统中预置的配置信息确定待更新的目标问答引擎;
基于所述更新索引请求,设置所述目标问答引擎为索引更新状态,并读取预置Redis中的索引序号,获取所述索引序号对应索引的第一索引名;
基于所述第一索引名,从Redis中获取对应的Annoy索引文件并加载到内存中;
以所述第一索引名为检索式,从Elasticsearch中查询与所述检索式匹配的第二索引名,并将所述第二索引名作为所述目标问答引擎的最新ES索引;
重置所述目标问答引擎的索引更新状态并基于所述配置信息确定下一待更新的目标问答引擎以进行索引更新。
可选地,在所述接收索引更新请求,并基于所述问答系统中预置的配置信息确定待更新的目标问答引擎的步骤之前包括:
获取原始语料;
对所述原始语料进行语料采集和标注,并输出标注语料;
对所述标注语料进行校验,并输出校验结果;
基于所述校验结果,将所述满足合格性评估的标注语料存储到语料管理平台;
基于预置接口,调用问答引擎以获取所述语料管理平台中的所述标注语料并存储至Redis;
从Redis获取所述标注语料,对所述标注语料进行预处理,得到所述标注语料的语意向量;
基于所述标注语料的语意向量,生成Annoy索引文件。
可选地,所述基于所述语料的语意向量,生成Annoy索引文件之后,还包括:
将所述Annoy索引文件写入Redis,并保存Annoy索引文件生成时使用的中间语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010138638.7/2.html,转载请声明来源钻瓜专利网。