[发明专利]一种中文电子病历文本分析方法与系统有效
申请号: | 201810635258.7 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108831559B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 张学工;李季;闾海荣;陈文昌 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F16/332 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 中文电子病历文本分析方法与系统,该方法包括以下步骤:利用病历文本获取病历数据集;用正则处理分离数值变量和文本信息,根据上下文表述确定数值信息含义,利用正则表达式搜索并结构化保存不同类别的时间信息;采用自然语言处理对文本分词及词性标注,结合医学实体识别进一步筛选,确定文本中医学关键词汇的位置及类型;分析筛选出医学关键词汇和信息;利用上述相关结果,对病历进行仿真;将文本内容转化成数值向量;对各病历文本添加相似性标签;对病历文本的标注进行学习;根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历。本发明对不同的评价标准,每一新到病历文本可从已有病历文本中找到不同的相似病历文本簇。 | ||
搜索关键词: | 一种 中文 电子 病历 文本 分析 方法 系统 | ||
【主权项】:
1.一种中文电子病历文本分析方法,其特征在于,包括以下步骤:步骤S10,将真实病历文本作为原始数据,经过输入、格式变换并存储得到待处理的病历数据集;步骤S30,利用正则处理分离数值变量和文本信息,其中,步骤S301,构建数值变量所对应的正则表达式,并根据上下文表述确定数值信息的含义类别,搜索并结构化保存不同类别的时间信息;步骤S302,采用自然语言处理方法对文本进行分词,并对分词结果进行词性标注,结合医学实体识别做进一步筛选,确定文本信息中医学关键词汇信息的位置及类型;步骤S303,根据分词、词性标注和实体识别结果,分析得到筛选后的医学关键词汇和信息;步骤S50,将文本信息转化成能够被计算机识别处理的数值向量;步骤S60,对各病历文本之间添加相似性关系标签;步骤S70,结合相似性学习方法、距离度量学习方法,对病历文本的标注进行学习;步骤S80,根据标注和训练结果对新到的病历样本在病历数据集中筛选出具有相似性的病历。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810635258.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种体质健康监测系统及方法
- 下一篇:一种确定医疗数据属性数据的方法和装置