[发明专利]一种基于知识图谱的中文医药问答系统及方法在审
申请号: | 202110763704.4 | 申请日: | 2021-07-06 |
公开(公告)号: | CN113569023A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 龙海霞;刘博韬;徐新黎;马骥;周艳波;肖杰 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/295;G06F40/30;G06F16/36;G06F16/35;G06K9/62;G06F16/951 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 中文 医药 问答 系统 方法 | ||
1.一种基于知识图谱的中文医药问答系统,其特征在于,所述系统包括知识图谱构建模块、问题分类模块、数据库查询模块、答案整合模块和结果展示模块:
所述知识图谱构建模块,用于根据医药百科网站获取的数据构建中文医药知识图谱;
所述问题分类模块,用于实现识别用户问句的主语实体、问题类别和问题类型,其中问题类别为事实类和是否类,事实类为询问具体的实体,此种问题给出对应的事实答案;是否类为询问两种实体间关系,此种问题依据知识图谱给出肯定或否定的答案,问题类型包含多个种类,疾病询问用药、疾病询问治愈时间或疾病询问症状;
所述数据库查询模块,用于根据问题分类的结果,将其转换为对应的数据库查询语句;
所述答案整合模块,用于将数据库查询语句送入数据库,对返回的结果进行整理,将查询的内容组装为符合自然语言的答案以及对应的可视化数据结构;
所述结果展示模块,用于显示前端聊天室,并对查询结果进行文本以及可视化图谱展示。
2.根据权利要求1所述的一种基于知识图谱的中文医药问答系统,其特征在于,所述知识图谱构建模块包括医药数据爬取单元、结构调整单元和医药数据存储单元;
所述医药数据爬取单元,用于对网页端医疗百科网站的文本数据进行爬取,并传递至结构调整单元;
所述结构调整单元,用于对医药数据爬取单元所获得文本数据进行整理,将其按照数据库要求的格式进行转换,拆分为节点对应节点属性和节点对应节点两种类型存入数据库用于后续分析;
所述医药数据存储单元,用于创建节点、节点属性和节点间关系,将整理好的数据,按照预先设计的上层结构进行存储,生成中文医药知识图谱。
3.根据权利要求1或2所述的一种基于知识图谱的中文医药问答系统,其特征在于,所述问题分类模块包括识别主语实体单元、判断问题类别单元和判断问题类型单元;
所述识别主语实体单元,用于识别问句中的实体,对用户问句进行解析时,采用AC自动机来加速检索主语实体词典的过程,能够将问句在词典里出现的词抽取出来,将问句的词与预先构建的字典进行匹配,识别出问句的主语实体,并且当这些主语实体中某个词属于另一个词的一部分时,对较短的词语进行去除,当问句未识别出主语实体时,会继承上一问句的主语实体;若当前问句为第一句且未识别出主语实体时,会给出婉转的回答表示问题无法理解;
所述判断问题类别单元,用于识别问题为是否类或事实类问题,判断时依据定义的规则进行划分,若问题中识别出两个实体,并且问句包含是否类关键词,则将其划分为是否类,其他情况归为事实类;
所述判断问题类型单元,用于识别问题类型,如疾病问用药、疾病问症状等。对于是否类采用模板匹配的方式进行问题类型识别,识别时判断问题是否含有某类问题类型的关键字,若包含对应关键字,则记录该种问题类型;对于事实类采用BERT语义解析的方式进行问题类型识别,识别问题类型时,首先取出之前获得的主语实体,将知识图谱中与该实体相连的所有候选属性及候选关系与该实体依次进行拼接,作为标准问题,然后将所有标准问题与用户问题利用BERT文本相似度模型计算相似度,将结果最高的作为需要查询的内容,记录对应的问题类型;
所述BERT文本相似度模型,需要系统对预训练的BERT模型进行迁移学习,根据预先收集的标准问题、用户问题、是否相似的数据格式训练,构建BERT文本相似度模块,该模块可以计算出两个语句的相似度。
4.根据权利要求1或2所述的一种基于知识图谱的中文医药问答系统,其特征在于,所述系统还包括数据库查询模块,用于将问题分类模块的数据转换为对应的数据库查询语言。
5.根据权利要求1或2所述的一种基于知识图谱的中文医药问答系统,其特征在于,所述系统还包括答案整合模块,用于连接图数据库,将查询语句输入到数据库中,获取对应的查询结果,然后将查询的内容组装为符合自然语言的答案以及对应的可视化数据,其中当问句为多种症状询问疾病时,会生成每种症状对应疾病的集合,然后对这些集合作交的操作,取其中重复的疾病作为最终答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110763704.4/1.html,转载请声明来源钻瓜专利网。