[发明专利]一种中文电子病历文本分析方法与系统有效
申请号: | 201810635258.7 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108831559B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 张学工;李季;闾海荣;陈文昌 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/332 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 电子 病历 文本 分析 方法 系统 | ||
1.一种中文电子病历文本分析方法,其特征在于,包括以下步骤:
步骤S10,将真实病历文本作为原始数据,经过输入、格式变换并存储得到待处理的病历数据集;
步骤S30,利用正则处理分离数值变量和文本信息,其中,
步骤S301,构建数值变量所对应的正则表达式,并根据上下文表述确定数值信息的含义类别,搜索并结构化保存不同类别的时间信息;
步骤S302,采用自然语言处理方法对文本进行分词,并对分词结果进行词性标注,结合医学实体识别做进一步筛选,确定文本信息中医学关键词汇信息的位置及类型;
步骤S303,根据分词、词性标注和实体识别结果,分析得到筛选后的医学关键词汇和信息;
步骤S50,将文本信息转化成能够被计算机识别处理的高维数值向量;
步骤S60,对各病历文本之间添加至少一种评价标准的相似性关系标签;
步骤S70,结合相似性学习方法、距离度量学习方法,对病历文本的标注进行学习;
步骤S80,根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历,
其中,以步骤S60中进行了相似性标注的病历文本数据作为训练数据,并根据病历文本之间标注的相似性关系,利用弱监督或半监督的度量学习算法进行训练,将表示病历文本的高维向量映射到低维空间中,并保留其中的相似性关系,通过迭代计算度量矩阵,完成从高维空间到低维空间的映射,
从而利用度量矩阵,将未标注的高维向量表示同时进行映射变换,得到未标注数据与已标注数据之间的关系,从而对新到的病历样本在病历数据集中筛选出具有相似性的病历。
2.根据权利要求1所述的中文电子病历文本分析方法,其特征在于,
还包括步骤S20,根据真实病历文本所属的病历类型分类存储,形成病历数据集,并且,对每个病历,针对病历中记载的医疗活动过程的不同将每个病历文本划分成多个段落。
3.根据权利要求1所述的中文电子病历文本分析方法,其特征在于,
在步骤S60中,将在病历的诊断部分中医生的结论进行特征提取,并参考这些特征评判病历之间的相似程度,从而对各病历文本添加相似性标签。
4.根据权利要求3所述的中文电子病历文本分析方法,其特征在于,采用机器学习方法对病历文本进行分类、聚类分析,验证所提取特征是否适于判断病历相似性。
5.根据权利要求3所述的中文电子病历文本分析方法,其特征在于,还将步骤S60中提取的医生的结论和步骤S30筛选的医学关键词汇和信息应用于生成仿真病历文本。
6.根据权利要求1所述的中文电子病历文本分析方法,其特征在于,在步骤S60中,还对数值化的高维向量做维数压缩,将高维向量用降维算法压缩维数,降低稀疏性。
7.根据权利要求1所述的中文电子病历文本分析方法,其特征在于,在步骤S70中,以步骤S60中进行了相似性标注的病历文本数据作为训练数据,针对不同的相似性标准,并根据病历文本之间标注的相似性关系,利用半监督或弱监督的度量学习算法进行训练;
在步骤S80中,根据不同的相似性标准,筛选出对应该相似性标准的相似病历。
8.根据权利要求1所述的中文电子病历文本分析方法,其特征在于,数值信息的含义类别包括时间信息、用药剂量信息、化验检验结果记录信息。
9.根据权利要求1所述的中文电子病历文本分析方法,其特征在于,步骤S303中,筛选后的医学关键词汇和信息按照其发生的时间顺序进行存储。
10.一种中文电子病历文本分析系统,其特征在于,包括:
病历文本输入模块,获取真实病历文本,并经过输入、存储和格式变换操作得到待处理的病历数据集;
关键信息筛选模块,对病历数据集进行医学语言处理,筛选医学关键词汇和信息,并将其转化成计算机可处理的高维数值向量;
特征提取模块,对在病历的诊断部分中医生的结论进行特征提取;
病历文本仿真模块,将提取的医生的结论和筛选出的医学关键词汇信息应用于训练生成仿真病历文本及其段落;
相似性标注模块,根据至少一种相似性标准对病历数据集进行相似性标注;
相似性训练模块,训练模块根据相似性标注模块的相似性标注结果,采用半监督或弱监督的算法进行训练,其中,以进行了相似性标注的病历文本数据作为训练数据,并根据病历文本之间标注的相似性关系,利用弱监督或半监督的度量学习算法进行训练,将表示病历文本的高维向量映射到低维空间中,并保留其中的相似性关系,通过迭代计算度量矩阵,完成从高维空间到低维空间的映射;
相似结果输出模块,根据相似性标准和训练结果,利用度量矩阵,将未标注的高维向量表示同时进行映射变换,得到未标注数据与已标注数据之间的关系,从而对新到的病历样本在病历数据集中筛选出具有相似性的病历,对新到病历在原始病历数据库中的相似病历簇依据相似性程度高低进行排序输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810635258.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种体质健康监测系统及方法
- 下一篇:一种确定医疗数据属性数据的方法和装置