[发明专利]基于单词的类内分布与类间分布的电子病历特征选择方法有效
申请号: | 201810208599.6 | 申请日: | 2018-03-14 |
公开(公告)号: | CN108346474B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 彭访;方胜群;蔡志平;吴喜军;孙文成 | 申请(专利权)人: | 湖南省蓝蜻蜓网络科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/289;G06F40/30 |
代理公司: | 湖南省国防科技工业局专利中心 43102 | 代理人: | 冯青 |
地址: | 410000 湖南省长沙市*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于单词的类内分布与类间分布的电子病历特征选择方法。本发明首先构建了疾病、药品词典,其次总结了中文病历中症状词分布的三大特点,然后对收集到的病人病历进行预处理,将分词结果保存到数据库中。本发明根据关键症状词在疾病内的分布情况及疾病间的分布情况计算单词对于不同疾病的代表度,且在考虑疾病间分布情况时,分析了疾病与疾病间的关联性对于特征选择的影响,在特征选择时保证关联性高的疾病间的特征尽量相似,关联性低的疾病间的特征尽量排斥。 | ||
搜索关键词: | 基于 单词 分布 电子 病历 特征 选择 方法 | ||
【主权项】:
1.基于单词的类内分布与类间分布的电子病历特征选择方法,利用症状词在疾病内的分布情况及疾病间的分布情况对病历文本进行特征选择,其特征在于,首先,针对病历文本包含大量的医学专用词语,且否定性词语或短语频繁出现的特点,利用国家食品药品监督局的药品信息和ICD‑10编码中的疾病信息构建了疾病、药品词典,利用该词典提高分词质量,保证在进行特征选择时关键症状词不会被错误切割,并通过总结医生或护士常用否定词语构建否定词列表,过滤病历中的否定性词语或短语,排除无用信息;其次,通过对中文电子病历的分析,总结病历文本中关键症状词分布的特点,即1)特征词重复次数低,关键的症状及体征信息不会多次出现;2)患同类疾病的病人病历中包含的关键症状词重叠度高;3)疾病间的关联性会影响疾病间关键症状的相似性;然后,对收集到的病人病历进行预处理,将病历中的否定性短语过滤,作为噪音直接消除;利用分词工具词典添加功能将疾病、药品名称导入词典并对病历进行分词,将病历中的专业疾病、药品名称准确地提取出来,最后将分词结果保存到数据库中;在计算每个单词对于每种疾病的代表度时,共包括N类疾病,分别为X1、X2…、XN,对于疾病Xi,为计算其中的每个单词对于Xi的代表度,需分别统计Xi中的病人数量,记为Ri,统计Ri位病人的病历中所有单词出现次数之和,记为Wi;对于Xi中的某个单词w,统计Xi下的病人的病历中包含词w的病人数量,记为ri,统计除Xi外的其他N‑1类疾病下的病历的中包含词w的病人数量,记为rj,j=1,2,3…,N,j≠i。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南省蓝蜻蜓网络科技有限公司,未经湖南省蓝蜻蜓网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810208599.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种慢性病精细化管理平台
- 下一篇:一种小型堆安全壳非能动抑压系统