[发明专利]知识库构建方法、装置、电子设备和介质有效
申请号: | 201911366607.0 | 申请日: | 2019-12-26 |
公开(公告)号: | CN113051390B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 余晓峰;韩友;念天磊;郑立涛;欧鑫凤 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 装置 电子设备 介质 | ||
本申请公开了一种知识库构建方法、装置、电子设备和介质,涉及知识库领域。具体实现方案为:从目标领域的网页中提取候选问题;根据候选问题,将网页划分为网页内容块;从网页内容块中,确定候选问题的候选答案,以得到候选问答对;根据候选问题和/或候选答案,对候选问答对进行过滤,并根据过滤结果构建目标领域的知识库。本申请通过从目标领域的网页中提取候选问题,并根据候选问题将网页划分为网页内容块,从网页内容块中得到候选答案,最终根据候选问题和/或候选答案,对候选问答对进行过滤,得到目标领域知识库,使得相比于依赖于已有问答信息构建知识库,可以丰富知识库包含的数据,从而提升了问答系统的效率、精度和召回率。
技术领域
本申请实施例涉及计算机技术,尤其涉及知识库技术,具体涉及知识库构建方法、装置、电子设备和介质。
背景技术
问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向,且当今各大互联网公司都在争相研发问答机器人和智能客服等问答系统。根据应用场景和需求的不同,问答系统的建模过程千变万化。而问答系统的核心就在于知识库的建立。
现有的知识库的构建一般依赖于已有问答对信息,这使得知识库规模较小,包含的数据较匮乏,一般只能包括10万多个问答对数据,导致基于现有知识库的问答系统存在效率低下、精度低下且召回率低等缺陷。
发明内容
本申请实施例提供一种知识库构建方法、装置、电子设备和介质,可以解决现有知识库数据较匮乏,导致问答系统的效率、精度和召回率较低的问题。
第一方面,本申请实施例公开了一种知识库构建方法,包括:
从目标领域的网页中提取候选问题;
根据所述候选问题,将所述网页划分为网页内容块;
从所述网页内容块中,确定所述候选问题的候选答案,以得到候选问答对;
根据所述候选问题和/或所述候选答案,对所述候选问答对进行过滤,并根据过滤结果构建所述目标领域的知识库。
上述申请中的一个实施例具有如下优点或有益效果:通过从目标领域的网页中提前候选问题,并根据候选问题将网页划分为网页内容块,从网页内容块中得到候选答案,最终根据候选问题和/或候选答案,对候选问答对进行过滤,得到目标领域知识库,使得相比于依赖于已有问答信息构建知识库,可以丰富知识库包含的数据,从而提升了问答系统的效率、精度和召回率。
可选的,从目标领域的网页中提取候选问题,包括:
获取目标领域的网页,并确定所述网页中段落的主旨句和/或标题,以将所述主旨句和/或标题作为所述候选问题。
上述申请中的一个实施例具有如下优点或有益效果:通过将目标领域网页中主旨句和/或标题作为候选问题,实现了候选问题的确定,并为后续得到候选问答对奠定了基础。
可选的,从所述网页内容块中,确定所述候选问题的候选答案,包括:
从所述网页内容块中提取关键内容,并将所述关键内容作为所述候选问题的候选答案。
上述申请中的一个实施例具有如下优点或有益效果:通过在网页内容块中提取关键内容,并将关键内容作为候选问题的候选答案,实现了候选答案的确定,进而实现了得到候选问答对的技术效果。
可选的,根据所述候选答案,对所述候选问答对进行过滤,包括:
基于行块分布函数,提取所述候选答案的特征;
根据所述候选答案的特征,对所述候选问答对进行过滤。
上述申请中的一个实施例具有如下优点或有益效果:通过基于行块分布函数,提取候选答案特征,并根据候选答案特征对候选问答对过滤,使得候选问答对的质量更高,提高了知识库的可靠性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911366607.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:含透明质酸的保湿组合物
- 下一篇:超声波发射方法、超声成像方法和超声设备