[发明专利]一种自适应不同领域知识图谱的智能问答系统及其构建方法在审
申请号: | 202210199670.5 | 申请日: | 2022-03-01 |
公开(公告)号: | CN115080710A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 徐永林;文辉;王文广;纪达麒;陈运文 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/35;G06F40/289 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 不同 领域 知识 图谱 智能 问答 系统 及其 构建 方法 | ||
本发明公开了一种自适应不同领域知识图谱的智能问答系统构建方法,该方法通过构建用户问句分析模块对行用户问句进行分析;构建实体链接器和模式链接器,优化用户问句分析结果,通过对图谱数据和图谱模式进行排列组合生成候选的问句组合特征列表;构建三级知识检索器,通过三级知识检索器从图数据库中获得与候选问句对应的候选答案;构建候选答案处理模块,候选答案处理模块通过统计意图分类模型、答案排序模型和答案自然语言化模型对候选答案进行统计转换、排序和自然语言化,生成最终答案发送给用户。该发明通过对用户问句进行分析生成问句组合特征列表,三级知识检索器检索出对应候选答案,提高了智能问答系统适应不同领域的能力。
技术领域
本发明属于人工智能领域,涉及到信息检索、知识图谱、自然语言处理与问答技术,具体是一种自适应不同领域知识图谱的智能问答系统构建方法及智能问答系统。
背景技术
信息检索是获取信息和资讯不可或缺的途径,从古老的图书情报检索到搜索引擎,再不断发展到当前的自然语言问答系统。早期信息检索的方式是基于文本或字符串的匹配的方法,包括在正则表达式中使用“?”和“*”等通配符来匹配字符串,数据库查询语言SQL中的“like”或“ilike”表达式等。随着互联网的发展,以Google和百度为代表的搜索引擎提供了新的信息检索方式,以关键词的形式来进行信息的获取。
随着信息抽取与知识图谱与相关技术的发展,基于知识图谱的智能问答技术(Knowledge Graph Based Question Answering,KBQA)可以为用户提供更精确、简洁的问题答案。当前对KBQA的研究都附属于特定的知识图谱,比如DBPedia等。在现实应用中,一个组织机构或企业往往有多个适合各自业务的知识图谱,比如满足客服场景下的业务知识库图谱,满足人力资源相关应用场景的人力资源图谱,用于市场、营销或客户服务等部门的客户关系图谱等,这种依附于特定图谱的问答系统对于多图谱的需求来说,存在建设成本高、不能自由切换、维护成本高、对新业务新场景不友好等各种不足。
专利号CN108182262A公开了一种基于深度学习和知识图谱的智能问答系统构建方法和系统,利用爬虫获取互联网的问诊医疗数据集,并进行数据预处理获得有标签的数据集;结合医院电子病历构建基于医学领域的分词词典,并与医学词典合并作为系统的分词词典;构建疾病和症状关联的知识图谱,并进行疾病实体对齐和症状实体对齐;根据疾病实体对齐,获得有标签数据集;构建基于深度学习的语言模型;构建结合用户上下文信息的基于知识图谱的查询优化算法;构建语言模型和知识图谱融合的训练数据集并进行模型融合训练,获得基于语言模型和知识图谱的预诊融合模型,该发明主要适用于医学诊断领域的知识图谱的问答方法,针对不用领域的知识图谱问答不适用。
从用户提问的角度来讲,用户输入的问题往往涉及范围非常宽泛,可能同时存在各种不同的噪声,对同一个问题的表达方式有差别,时常发生拼写错误,甚至可能是一段随意输入的文本。同时,这些问题的知识可能来自于多个不同的图谱,甚至要利用多个图谱的知识才能回答问题。当前,满足这种真实场景下的问答系统并非单一方法所能实现,相关的研究甚少,导致基于知识图谱的智能问答技术难以实现大规模快速的实现商业应用价值。
发明内容
本发明的目的在于克服现有技术中存在的不足,提供一种自适应不同领域知识图谱的智能问答系统构建方法,本发明的方法通过对用户问句分析,生成问句组合特征列表,通过三级知识检索器从图数据库中检索出候选答案,并通过候选答案处理模块对候选答案进行最终处理将最终答案发送给用户,提高了不同领域的知识图谱在无需或者极少二次开发的工作量下,有效且准确的回答问题,提高了智能知识问答系统的领域适应能力。
为了达到上述发明的目的,本发明专利提供的技术方案如下:
一种自适应不同领域知识图谱的智能问答系统构建方法,该方法具体包括以下步骤:
S1,通过利用命名实体识别技术、结巴切词技术、全文检索技术、语义匹配技术和同义词策略进行用户问句分析;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210199670.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示系统和显示装置
- 下一篇:拖擦模块的更换方法以及更换基站