[发明专利]一种问答知识库的构建方法及装置有效
申请号: | 201810749024.5 | 申请日: | 2018-07-10 |
公开(公告)号: | CN109101551B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 胡炜梅;刘婉 | 申请(专利权)人: | 广州极天信息技术股份有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06N5/022;G06F16/25 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
地址: | 510000 广东省广州市海珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问答 知识库 构建 方法 装置 | ||
1.一种问答知识库的构建方法,包括如下步骤:
步骤S1,分析工程目标以及使用维度,获取数据源;所述分析工程目标包括分析并确定知识整理周期和业务指标;所述分析使用维度包括分析并确定用户的类型、用户所用的品牌、用户所在的地区和问答知识库的应用渠道;所述获取数据源包括获取会话记录、获取产品表单数据和获取业务介绍表单数据;
步骤S2,分析所获取的数据源,自动生成初始问答集,并对过滤后的问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;
步骤S3,分析是否有可以继承的知识结构,若没有,进入步骤S4,否则进入步骤S5;
步骤S4,定义知识结构;
步骤S5,整理标准问、相似问以及槽点,并按使用维度划分标准问及其对应的相似问、槽点以及答案,整理答案;
步骤S6,对整理好的标准问和相似问与已有句式模板和语义网进行关联,得到初始问答知识库;
步骤S7,于初始问答知识库中,选取不同使用维度下所有的问题及其目标知识,按不同使用维度进行批量验证;
其中,步骤S5进一步包括:
步骤S500,根据所述知识结构获取初始标准问,得到标准问集;
步骤S501,根据标准问集从过滤后的问答集中获取每个标准问对应的相似问;
步骤S502,对于标准问集中的每个标准问,提取其中的关键词,确定每个问题的槽点;
步骤S503,根据步骤S1确定的使用维度划分标准问及其对应的相似问、槽点和答案;
步骤S504,根据工程目标整理不同使用维度下标准问的答案;
步骤S500进一步包括:
提取知识结构中的每个节点,搜索其在所述名词与动词共现对集合中对应的动词,把节点和对应的动词组合起来成为标准问;把标准问挂到知识结构对应的节点下,并对知识结构中挂接空白的地方补充标准问,得到标准问集,并且把补充标准问中包含的名词和动词补充到热词集中,得到补充后的热词集。
2.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S2进一步包括:
从所述数据源中抽取问题和对应的答案,自动生成初始问答集;
对所述初始问答集进行过滤,得到过滤后的问答集;
对过滤后的问答集里面的问题依次进行热词分析、词性标注、共现分析,得到热词集和热词中的名词与动词共现对集合。
3.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S4进一步包括:
根据词性划分步骤S2中得到的热词集,得到名词热词集;
采取自上而下的方式,把所述名词热词集中的数据进行分类,构成一个初始的知识结构。
4.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S502进一步包括:利用关键词提取工具,对于每个标准问,分词后对其过滤,提取出问题中的关键字或者词;然后对其进行确认及修改,得到槽点。
5.如权利要求1所述的一种问答知识库的构建方法,其特征在于,步骤S7进一步包括:
计算所有待测试问题与初始问答知识库里所有问题的最高相似度;
若知识库中的问题q与待测试问题c的相似度最高,并且问题q就是问题c的目标知识,或者问题q对应的标准问是问题c的目标知识,那么验证通过;若不满足以上条件,则表示知识需要优化,返回步骤S4;
当所有维度都验证通过,则得到最终的问答知识库。
6.一种问答知识库的构建装置,包括:
目标确定单元,用于分析工程目标以及使用维度,获取数据源;
数据源分析单元,用于分析所获取的数据源,自动生成初始问答集,并对问答集中的问题进行分析,得到热词集和热词中的名词与动词共现对集合;
领域继承判断单元,用于分析是否有可以继承的知识结构,若没有,则启动知识结构定义单元,否则直接启动问答整理单元;
知识结构定义单元,用于定义知识结构;
问答整理单元,用于整理标准问、相似问以及槽点,并按使用维度划分标准问及其对应的相似问、槽点以及答案,整理答案;
关联单元,用于对整理好的标准问和相似问与已有句式模板和语义网做关联,得到初始问答知识库;
验证优化单元,用于于所述初始问答知识库中,选取不同维度下所有的问题及其目标知识,按不同维度进行批量验证,并根据验证结果进行优化;
其中,所述问答整理单元,具体用于:
根据所述知识结构获取初始标准问,得到标准问集;
根据标准问集从过滤后的问答集中获取每个标准问对应的相似问;
对于标准问集中的每个标准问,提取其中的关键词,确定每个问题的槽点;
根据所述目标确定单元确定的使用维度划分标准问及其对应的相似问、槽点和答案;
根据工程目标整理不同使用维度下标准问的答案;
所述根据所述知识结构获取初始标准问,得到标准问集,进一步包括:
提取知识结构中的每个节点,搜索其在所述名词与动词共现对集合中对应的动词,把节点和对应的动词组合起来成为标准问;把标准问挂到知识结构对应的节点下,并对知识结构中挂接空白的地方补充标准问,得到标准问集,并且把补充标准问中包含的名词和动词补充到热词集中,得到补充后的热词集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州极天信息技术股份有限公司,未经广州极天信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810749024.5/1.html,转载请声明来源钻瓜专利网。