[发明专利]一种语义知识库构建方法在审
申请号: | 201910575541.X | 申请日: | 2019-06-28 |
公开(公告)号: | CN110309509A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 张传锋;朱锦雷;申冲;王太浩 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/31;G06F16/35;G06F16/332;G06F16/33;G06F16/951;G06K9/62 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义知识库 构建 知识库 机器人 语义 客户体验 用户交互 语义逻辑 智力水平 口语化 匹配 后台 关联 互联 智力 升级 | ||
本发明公开一种语义知识库构建方法,本方法首先构建种子语义知识库,然后实现语义知识库与行业知识库的语义互联,之后在用户交互过程中,通过后台语义逻辑构建实现机器人智力升级,然后根据当前行业知识库,丰富和扩充语义知识库。本方法通过构建语义知识库,实现新构建知识库与语义知识库的关联对接,解决了常规知识库“从零开始构建”的问题和“书面语口语化表达不匹配”的常识缺乏问题,最终实现更为精准的用户问答,大大提升机器人的智力水平,提升客户体验度。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语义知识库构建方法。
背景技术
随着人工智能技术的不断成熟与国家战略的不断推进,知识库作为数据存储的重要形态,起到越来越关键的作用。知识库的构建方法和策略,直接关系到微信机器人、网页机器人、虚拟屏机器人、实体机器人等各类终端智能体的智力水平,同时也影响到知识库的维护难度和迭代速度。
专利CN109800879A《知识库构建方法和装置》提出了一种构建知识库的方法。此专利提出了一种拓展相似问句的常规方法,首先构建标准问题和第一拓展问句,然后依此为基础构建基于训练库构造其余相似问句,此方法具有理论上的可行性。专利CN104834668A《基于知识库的职位推荐系统》重点对招聘行业知识的来源及使用方法做了阐述。专利CN106650940A《一种领域知识库构建方法和装置》主要通过核心概念的构建及更新的机制实现知识库的自动构建。
由以上具有代表意义的专利可知,当下知识库的构建方法主要采用常规“从零开始构建”的传统方法。即根据用户提供的行业知识按部就班的按照某种方法进行知识采集及处理。此种机制的弊端有两个,第一是没有充分利用到其他领域的知识,所获取的知识仅仅局限在特定领域,存在人工智能专家Geoffrey Hinton所说的“机器缺乏常识”的问题。比如“信用卡办理周期”的问题,用户问“信用卡什么时候能寄到”,换种更口语化的问法机器人可能就无法解析,出现错误回答。第二是传统构建方法其准确率得不到保障,其实用价值和商用价值受限。
发明内容
本发明要解决的技术问题是提供一种语义知识库构建方法,解决了常规知识库“从零开始构建”的问题和“书面语口语化表达不匹配”的常识缺乏问题。
为了解决所述技术问题,本发明采用的技术方案是:一种语义知识库构建方法,包括以下步骤:S01)、构建种子语义知识库,原始的语义知识库没有任何内容,首先构建第一版语义知识库,即种子知识库,种子知识库的每一条语义知识都全局唯一语义知识ID,语义知识包括标准问句的相似语义知识的聚类;S02)、实现语义知识库与行业知识库的语义互联,行业知识库中每一条知识只包括标准问句与对应答案,进行语义关联时,首先对行业知识库的每一条知识设置全局唯一行业知识ID,然后对标准问句进行语义解析及语义提取,然后对解析后的语义与语义知识库进行语义关联;S03)、用户交互过程中, 通过后台语义逻辑构建实现机器人智力升级,对于用户咨询的问题,首先通过语义知识库实现语义扩充,再通过与标准问题计算语义相似度,选择最佳的候选答案;S04)、根据当前行业知识库,丰富和扩充语义知识库,当前行业知识库经过一段时间的运行后,行业知识的条目达到一定数量,此时可将行业知识进行语义知识提取和抽象,实现对语义知识库的扩充。
进一步的,采用机器学习的自动构建方法、人工构建方法或者自动构建与人工构建相结合的方法构建种子语义知识库。
进一步的,构建种子语义知识库的过程为:S11)、构造爬虫策略,爬取包括行业文件、行业知识问答、行业常识在内的行业知识;S12)、构造部分训练集,以句子为单位,对句子进行分类,类别包括定义类问题、业务流程类、业务条件类、业务资料类、时间语义、钱数语义;S13)、构造完成训练集,对全部样本以句子为单位进行拆分,得到每个句子的类别;S14)、基于每个句子的类别对句子进行语义提取,同类别的句子提取到语义相似或结构相似的信息,针对每个句子提取的信息构成种子语义知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910575541.X/2.html,转载请声明来源钻瓜专利网。