[发明专利]一种基于知识图谱的交互式问答方法及系统在审

专利信息
申请号: 201710954692.7 申请日: 2017-10-13
公开(公告)号: CN107766483A 公开(公告)日: 2018-03-06
发明(设计)人: 路松峰;钟亚波;黄炎;徐科;王同洋 申请(专利权)人: 华中科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/24;G06F17/27
代理公司: 华中科技大学专利中心42201 代理人: 廖盈春,李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 图谱 交互式 问答 方法 系统
【说明书】:

技术领域

发明涉及人工智能技术领域,更具体地,涉及一种基于知识图谱的交互式问答方法及系统。

背景技术

传统的自动问答系统分为问句处理和答案检索两大部分。其中问句处理的基础是分词,然而用分词在处理一些专业领域的长文本名词进很容易造成名词的割裂。处理该问题的普遍思路是人工构建专业字典。该方式消耗大量的人力资料。

其次,在答案检索方面,传统问答系统采用构建评分机制,从海量文本数据选取一系列候选答案;然后再次构建选择函数从候选答案中选取最接近的答案。该方法的弊端在于所选取的答案因构建的机制和函数的不同会出现不同程度的错误。

综上,现有自动问答系统在处理一些专业领域的长文本名词进很容易造成名词的割裂,以及采用构建评分机制,从海量文本数据选取一系列候选答案,所选取的答案因构建的机制和函数的不同会出现不同程度的错误。

发明内容

针对现有技术的缺陷,本发明的目的在于解决现有自动问答系统在处理一些专业领域的长文本名词进很容易造成名词的割裂,以及采用构建评分机制,从海量文本数据选取一系列候选答案,所选取的答案因构建的机制和函数的不同会出现不同程度的错误的技术问题。

为实现上述目的,第一方面,本发明提供一种基于知识图谱的交互式问答方法,包括:

S1、构建知识图谱,所述知识图谱中的数据来自多个开源信息源;

S2、根据知识图谱中现有的实体形成字典,通过人工标注的方法形成名称到专业领域的映射,通过传统的特征建模方式扩充构建成专业字典,专业词典的格式包括实体和领域标识符;

S3、根据知识图谱中的数据通过人工标注的方法形成实体映射到领域的训练集,对训练集进行向量建模后得到的向量模型进行训练构建得到分类器;

S4、根据构建好的专业词典对自然问句通过正向最大匹配法进行分词,根据分词后的结果输入到分类器中进行分类,将自然问句分成不同领域内的问题,正向最大匹配法用于解决分词过程中对专业名词的割裂问题;

S5、将分类后的问题映射得到对应的问题模板,将问题模板转换成知识图谱中的查询子图,每个查询子图对应一条查询语句,并结合知识图谱完成对自然问句的回答。

需要说明的是,在将问题分类映射成问题模块的时候,需先将分类后的问题进行分词和词性替换。

可选地,所述步骤S1包括:

S11、获取多个开源信息源,所述开源信息源包括结构化的数据、半结构化的数据和非结构化的数据;

对于结构化的数据,即已有数据库,xml、json格式的数据,针对不同的数据格式编写相应的转换接口,将其转换成统一的格式;

对于半结构化数据,即各领域论坛和百科词条,该类数据没有固定格式的,对于其中有相应的标签标记的信息,在进行数据抓取的时要编写对应的正则表达式;

对于非结构化数据,即学术期刊和出版书籍,对该类数据进行抓取时,需要对应领域的专业人员辅助完成专业知识体系的梳理,形成专业名词字典,从而实现命名实体识和关系抽取处理的相关操作;

S12、构建知识图谱;

通过Neo4j数据库存储步骤S11获取的多个开源信息源,以构建得到知识图谱。

可选地,在执行步骤S12之前,对步骤S11获取的多个开源信息源进行知识清洗和实体对齐操作。

可选地,在执行所述步骤S3之前,所述方法还包括:

将所述知识图谱中的专业名词抽象到统一的概念,以让所述分类器减轻特征的选取工作量,并缩减所述问题到领域格式的键值对的训练集的规模。

第二方面,本发明提供一种基于知识图谱的交互式问答系统,包括:

知识图谱构建单元,用于构建知识图谱,所述知识图谱中的数据来自多个开源信息源;

专业字典构建单元,用于根据知识图谱中现有的实体形成字典,通过人工标注的方法形成名称到专业领域的映射,通过传统的特征建模方式扩充构建成专业字典,专业词典的格式包括实体和领域标识符;

分类器构建单元,用于根据知识图谱中的数据通过人工标注的方法形成实体映射到领域的训练集,对训练集进行向量建模后得到的向量模型进行训练构建得到分类器;

问句分类单元,用于根据构建好的专业词典对自然问句通过正向最大匹配法进行分词,根据分词后的结果输入到分类器中进行分类,将自然问句分成不同领域内的问题,正向最大匹配法用于解决分词过程中对专业名词的割裂问题;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710954692.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top