[发明专利]一种问答知识库的构建方法及装置有效
申请号: | 201810749024.5 | 申请日: | 2018-07-10 |
公开(公告)号: | CN109101551B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 胡炜梅;刘婉 | 申请(专利权)人: | 广州极天信息技术股份有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06N5/022;G06F16/25 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
地址: | 510000 广东省广州市海珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问答 知识库 构建 方法 装置 | ||
本发明一种问答知识库的构建方法及装置,所述方法包括:步骤S1,分析工程目标以及使用维度,获取数据源;步骤S2,分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;步骤S4,定义知识结构;步骤S5,整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;步骤S6,对整理好的标准问和相似问与已有句式模板、语义网进行关联,得到初始问答知识库,本发明可高效地构建不同行业的高质量的问答知识库。
技术领域
本发明涉及知识库构建技术领域,特别是涉及一种问答知识库的构建方法及装置。
背景技术
随着互联网的飞速发展,人们服务意识的提高,自动问答系统已经普及到各行各业,深入到日常商业服务的各个环节。在自动问答系统中,知识库是问答系统的重要数据来源,它在整个系统中起到了非常重要的作用,一个高质量的知识库能够大大提高问答系统的效率与准确率。
问答知识库通常是由问句和答案组成。问句通常包含一个标准问和零到多个相似问;答案也可以是一个或多个。通常标准问还对应多个槽点。标准问和相似问还与句式模板、语义网关联。
标准问:问句陈述简洁完整、意图明确,一般是动宾结构,往往省略了主语。
相似问:与标准问的答案一致,并区别于标准问,口语化或有差别意义问句陈述,一个标准问可能有多个相似问。典型例子:是标准问主题内容的扩充或者细分。
槽点:由问句的关键字、词和逻辑符号所组成的语义表达式,可以提升应答效果。
语义网:又称本体(ontology)、语义词典(semantic dictionary),是共享概念模型的明确的形式化规范说明。
句式模板:基于语义网的表达式
目前业内对问答知识库的构建主要有以下方法:一是纯手工整理问答对,构建知识库,然而其效率低,而且一般都必须由行业中比较熟悉业务的人员来完成,对人员门槛较高,具有工作效率低、质量不高,维护难度大的缺点;二是通过分析当前已有的领域知识库、结构化数据、大量搜索日志等构建问答知识库,然而,其依赖于企业当前的数据模型积累和技术积累,如依赖于各种预置的领域知识库、已有的结构化数据或者依赖于浏览器的大量搜索日志等,不适用于大多数企业。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种问答知识库的构建方法及装置,以能够高效地构建不同行业的高质量的问答知识库。
为达上述及其它目的,本发明提出一种问答知识库的构建方法,包括如下步骤:
步骤S1,分析工程目标以及使用维度,获取数据源;
步骤S2,分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;
步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;
步骤S4,定义知识结构;
步骤S5,整理标准问、相似问、槽点,并按使用维度划分标准问及其对应的相似问、槽点、答案,整理答案;
步骤S6,对整理好的标准问和相似问与已有句式模板、语义网进行关联,得到初始问答知识库。
优选地,步骤S2进一步包括:
从所述数据源中抽取问题和对应的答案,自动生成初始问答集;
对所述初始问答集进行过滤,得到过滤后的问答集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州极天信息技术股份有限公司,未经广州极天信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810749024.5/2.html,转载请声明来源钻瓜专利网。