[发明专利]知识抽取方法、装置、设备、介质和程序产品在审
申请号: | 202111437931.4 | 申请日: | 2021-11-29 |
公开(公告)号: | CN114064859A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 崔林 | 申请(专利权)人: | 工银科技有限公司;中国工商银行股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/194 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 张博 |
地址: | 071700 河北省保定市中国(河北)自由贸易试验*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 抽取 方法 装置 设备 介质 程序 产品 | ||
本公开提供了一种知识抽取方法,涉及金融领域和数据处理技术领域,该知识抽取方法包括:响应于接收到目标搜索语句,根据目标搜索语句从历史搜索语句数据库中确定与目标搜索语句具有关联关系的历史搜索语句;根据目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及根据对目标搜索语句以及历史搜索语句进行融合而生成的搜索词向量,从粗排知识集中抽取目标知识文档。本公开还提供了一种知识抽取装置、一种电子设备、一种可读存储介质和一种计算机程序产品。
技术领域
本公开涉及金融领域和数据处理技术领域,更具体地,涉及一种知识抽取方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
随着社会经济的发展,数据中心等算力基础设施建设成为重中之重。运维作为数据中心的重要环节,是保证数据中心平稳运行的重要支撑。运维属于技术信息密集型的领域,有知识范围广、领域多、问题杂、入门难、深入难和传承难的特点。目前,如何解决运维领域的知识积累、搜索和传播等问题存在很大困难。
在日常运维过程中,产生了大量有价值的系统文档、预案、问题解决方案、制度法规和操作手册等,而大部分文档分散在各类专家手中或是存储在类似confluence的工具中。
在实现本公开构思的过程中,发明人发现通过与专家沟通获得知识的方法存在效率不高的问题;而通过confluence类工具抽取知识的方法存在准确率不高的问题。
发明内容
有鉴于此,本公开提供了一种知识抽取方法、一种知识抽取装置、一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的第一个方面,提供了一种知识抽取方法,包括:
响应于接收到目标搜索语句,根据上述目标搜索语句从历史搜索语句数据库中确定与上述目标搜索语句具有关联关系的历史搜索语句;
根据上述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集;以及
根据对上述目标搜索语句以及上述历史搜索语句进行融合而生成的搜索词向量,从上述粗排知识集中抽取目标知识文档。
根据本公开的实施例,其中,上述根据上述目标搜索语句从历史搜索语句数据库中确定与上述目标搜索语句具有关联关系的历史搜索语句包括:
根据上述目标搜索语句,从上述历史搜索语句数据库中确定候选历史搜索语句;
将上述目标搜索语句和上述候选搜索语句输入预先训练完成的神经网络模型,输出相似度结果;
在上述相似度结果满足预设条件的情况下,将上述候选搜索语句确定为上述历史搜索语句。
根据本公开的实施例,其中,上述根据上述目标搜索语句,从上述历史搜索语句数据库中确定候选历史搜索语句包括:
获取上述目标搜索语句的接收时间;
根据上述接收时间对上述历史搜索语句数据库中的搜索语句进行排序,生成排序结果;
根据上述排序结果确定上述候选历史搜索语句。
根据本公开的实施例,其中,上述根据上述目标搜索语句和所述历史搜索语句,从预先配置完成的运维知识库中确定粗排知识集包括:
基于上述目标搜索语句和所述历史搜索语句,分别利用多种召回算法从上述运维知识库中确定与每种召回算法分别对应的初始知识集;
根据多个上述初始知识集,生成上述粗排知识集。
根据本公开的实施例,其中,上述初始知识集中的知识文档具有基于召回算法计算得到的分值;
上述根据多个上述初始知识集,生成上述粗排知识集包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工银科技有限公司;中国工商银行股份有限公司,未经工银科技有限公司;中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111437931.4/2.html,转载请声明来源钻瓜专利网。