[发明专利]一种基于词向量的医疗分诊方法及系统有效
申请号: | 201910366790.8 | 申请日: | 2019-05-05 |
公开(公告)号: | CN110246572B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 江瑞;黄浩 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H40/20 | 分类号: | G16H40/20;G16H50/20 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 管士涛;曹素云 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 医疗 方法 系统 | ||
1.一种基于词向量的医疗分诊方法,其特征在于,所述方法包括如下步骤:
步骤一、获取用户的症状数据信息;
步骤二、判断获取的用户症状数据信息是用户输入还是问诊数据,若是用户输入数据则执行步骤三,若是问诊数据则执行步骤四;
步骤三、基于所述症状数据信息查找与其对应的词向量,与门诊向量求余弦相似度,得到分诊概率,作为分诊结果;
步骤四、通过分诊概率求熵,并代入预先设置的症状向量列表,将概率分布的熵最小化,从而找到需要问诊的症状,获得问诊结果,
其中,所述基于所述症状数据信息查找与其对应的词向量,与门诊向量求余弦相似度,得到分诊概率,具体为:
(1)将用户的病症数据生成查询向量Qv;
(2)计算查询向量与现有的门诊向量之间的余弦相似度,就可以得到它属于每个门诊的概率,表示如下:
其中,所述通过分诊概率求熵,并代入预先设置的症状向量列表,将概率分布的熵最小化,从而找到需要问诊的症状,具体为:
构建新的查询症状它是输入的查询症状向量加上一个已有症状中的任意一个症状向量:
根据信息熵公式:
得到门诊概率:
通过遍历式(9)中i的取值,使其从1变到180,代入式(10)和式(11)中,得到180个熵值,其中使熵最小的那个就是要拿来问诊的症状。
2.根据权利要求1所述的基于词向量的医疗分诊方法,其特征在于,所述获取用户的症状数据信息之前,还包括构建词向量,其中所述构建词向量包括病症向量抽取、疾病向量与门诊向量的构建。
3.根据权利要求2所述的基于词向量的医疗分诊方法,其特征在于,所述病症向量的抽取,具体为:
(1)使用Jieba分词工具对语料进行分词,得到T个单词,其集合为W;同时,导入180个症状,其集合为S,作为自定义词典,进行强制分词,即
S∈W (1)
(2)使用Word2Vec工具,对分词后的语料进行训练得到词向量模型M,得到每一个单词Wi的向量表示Vi,其中向量均为180维;
(3)取其中的180个症状单词,得到症状对应的180个向量,用集合Sv表示,则表示第i个症状的向量。
4.根据权利要求3所述的基于词向量的医疗分诊方法,其特征在于,使用《疾病大全》作为训练词向量的语料。
5.根据权利要求3所述的基于词向量的医疗分诊方法,其特征在于,所述构建疾病向量与门诊向量,具体为:
(1)对180个症状向量进行正交规范化,使得每个症状向量的均值为0、标准差为1;
(2)对于每一个症状向量定义其第j个分量为代表其在第j个维度的值,得到每一个症状向量的平均值Mi:
其方差Vi:
则标准化后的症状向量为:
更新症状向量使
症状向量组的正交化是通过施密特正交化的方法实现的,
……
更新症状向量,使
对疾病所包含的症状向量Sv做加权平均得到疾病向量Dv,第l个疾病中,包含n个症状
(3)根据每个门诊C对疾病D的包含关系,假设第t个门诊中,包含m个疾病,通过对门诊所包含的疾病向量Dv做加权平均得到门诊向量Cv,
6.根据权利要求1所述的基于词向量的医疗分诊方法,其特征在于,如果用户认定症状存在,则将此症状与之前的查询症状加权,重新进行步骤三;如果患者认定此症状不存在,则将含有此症状的门诊删去。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910366790.8/1.html,转载请声明来源钻瓜专利网。