[发明专利]一种基于医疗知识图谱的问题生成方法在审
申请号: | 202010978118.7 | 申请日: | 2020-09-17 |
公开(公告)号: | CN113157928A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 金博;闫行一;魏小鹏 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F40/295 |
代理公司: | 大连格智知识产权代理有限公司 21238 | 代理人: | 刘琦 |
地址: | 116000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 医疗 知识 图谱 问题 生成 方法 | ||
本发明公开了一种基于医疗知识图谱的问题生成方法首先通过将好大夫问诊平台的医患问诊文本数据进行提取,同时利用深度学习算法将提取出来的文本数据进行实体识别、实体抽取、实体去重、实体过滤等形成较大规模医疗知识图谱,存储于图形数据库中。通过深度学习算法,可以实现知识图谱的自动扩充;最终患者输入描述性语句之后,得到相应的生成的问题。
技术领域
本发明涉及一种线上问诊平台技术领域,更具体地说,涉及一种基于医疗知识图谱的问题生成方法。
背景技术
随着线上问诊平台的推广,越来越多的患者选择在线上问诊平台咨询医生。但是由于患者和医生不能保证同一时间都在线,大部分情况是患者和医生不同时间在线。这就产生了一个问题,患者咨询医生的问题不能及时得到医生的回复。并且由于患者起初提出的问题包含的信息特别少,不详尽,待医生上线后,看到患者的问题时,不能了解患者的具体情况,这就需要医生和患者之间进行多轮对话,大大降低了医生问诊的效率和增加了患者得到有效回复所需的等待时间。这可能会延误患者的病情,错过最佳的治疗时间段。
发明内容
本发明针对问诊平台患者提问不详尽,医患之间需要多轮对话,大大降低了医生问诊的效率和增加了患者得到有效回复所需的等待时间的问题。
为了达到上述目的,本发明提供了一种基于医疗知识图谱的问题生成方法,所述问题生成方法包括如下步骤:
S1、从问诊平台提取医患问诊文本数据;
S2、利用深度学习算法将提取出来的文本数据进行实体识别、实体抽取、实体去重、实体过滤等形成较大规模医疗知识图谱,存储于图形数据库中;
S21、实体识别;
定义5类医学实体,症状S、疾病D、药品M、检查方式C、治疗方式T,对提取出来的医患问诊文本内容使用bert+bilstm+crf模型进行命名实体识别,识别出上述5类医学实体;
识别出的所述实体还包含非医学实体;
S22、实体抽取,实体去重;
对识别出来的医学实体进行实体抽取,并去重;
S23、实体过滤;
对于所有提取出来的实体,每一个实体都作为一个关键词,在搜索引擎中爬取每个实体的相应文本内容,然后对于每个实体对应的文本内容,再次进行医学实体识别;
所述实体过滤基于两个假设:
第一、若第一次识别出来的实体出现在第二次识别出来的实体中,则认为该实体是医学实体,则保留;
第二、将第一次识别出来的实体和第二次识别出来的实体都进行Embedding,然后进行相似度计算,若相似度大于0.9,则认为该实体也是医学实体,则保留;
S3、构建知识图谱;
S4、将S2中识别出来的实体输入构建好的知识图谱中去检索,返回与该实体相关的其他医学实体;然后通过规则模式匹配,为患者生成与他描述相关的问题。
优选的是,S4中所述的构建知识图谱的过程中,需要对非结构化数据进行实体、属性、关系抽取,主要采用BERT模型对其进行处理。
优选的是,所述BERT模型是由Google公司于2018年提出的,在自然语言处理领域刷新了多项任务记录,可以完成本发明的非结构化数据处理任务。
优选的是,通过所述BERT模型将非结构化数据抽取为症状、疾病、药物、检查方式、治疗方式等5项实体,以医生实体为中心建立全病程知识图谱,并通过医生唯一ID与关系型数据库结合,同时可随着医院系统数据的增加自动对新增数据进行处理,对知识图谱进行扩充。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010978118.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高速时钟滤波器及其方法
- 下一篇:一株微生态制剂及其发酵方法和应用