[发明专利]一种基于深度学习的医药知识图谱构建方法及系统在审
申请号: | 202010767903.8 | 申请日: | 2020-08-03 |
公开(公告)号: | CN111916216A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 汪礼君 | 申请(专利权)人: | 汪礼君 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G16H70/40;G06N3/04;G06N3/08 |
代理公司: | 长沙正务联合知识产权代理事务所(普通合伙) 43252 | 代理人: | 郑隽;吴婷 |
地址: | 410205 湖南省长沙市高新*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 医药 知识 图谱 构建 方法 系统 | ||
1.一种基于深度学习的医药知识图谱构建方法,其特征在于,所述方法包括:
获取医药网站中的相关医药知识信息,并对医药网站内容进行解析;
完成对解析内容的数据清洗;
利用基于词典的切分算法对解析内容进行切分处理;
设计医药知识图谱实体关系,并进行基于医药知识图谱的语义表示;
基于注意力机制进行知识图谱网络的构建,并进行基于知识图谱的医药问答;
将基于知识图谱的医药问答过程建模为排序问题,采用逐点训练的方式进行计算,得到问答之间的匹配分数,并根据匹配分数的分布特征进行参数精调,实现少样本下的知识图谱训练。
2.如权利要求1所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述对医药网站内容进行解析,包括:
解析出疾病的基本信息、发病原因、预防措施、检查项目、治疗信息、饮食保健信息和用药信息;
其中,单条数据的存储格式为:{‘url’:‘data’,‘basic_info’:‘data’,‘cause_info’:‘data’,‘prevent_info’:‘data’,‘symptom_info’:‘data’,‘inspect_info’:‘data’‘treat_info’:‘data’,‘food_info’:‘data’,‘drug_info’:‘data’};
将所有的疾病名称和网站中医生评论模块中评论者姓名单独抓取存储为文本格式。
3.如权利要求2所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述对所解析内容进行数据清洗,包括:
通过设置停用词表来过滤“症状信息”中包含的错误信息,停用词表的设置采用数据抓取阶段保存的网站医生评论区医生姓名信息、基本字母表“a-z”和数字表“0-9”共同构成停用词表;
对于原始信息中“检查信息”中只保存了二级页面的url和页面的html文本内容,通过调用Python的Parse软件包重新解析html内容,从html中解析出“检查名称”和“检查描述”信息以{‘name’:‘data’,‘desc’:‘data’}的格式更新数据库相关信息。
4.如权利要求3所述的一种基于深度学习的医药知识图谱构建方法,其特征在于,所述基于词典的切分算法的流程为:
根据所述医药知识词典分别进行前向词典最大匹配以及后向词典最大匹配,根据匹配结果进行初步分词;
将前向最大匹配的分词结果和后向最大匹配的分词结果进行比较,采用启发式规则,若正反向分词结果词数不同,那么取分词数量少的分词结果作为最终结果;若分词结果数相同,说明正反向分词结果没有歧义,返回任意分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汪礼君,未经汪礼君许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010767903.8/1.html,转载请声明来源钻瓜专利网。