[发明专利]一种基于大数据技术的电子病历文本解析闭环方法在审

专利信息
申请号: 201811578717.9 申请日: 2018-12-24
公开(公告)号: CN109657062A 公开(公告)日: 2019-04-19
发明(设计)人: 王晔;张敬谊;李光亚;桑伟毅;姜峰;丁海明;路平 申请(专利权)人: 万达信息股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G16H10/60
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 200233 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 电子病历 文本解析 分词 闭环 探查 命名实体 大数据 标注 医疗卫生领域 标准化进程 结构化处理 医学知识库 闭环设计 创新思路 词语类别 实际效果 文本数据 问题提供 信息服务 医疗卫生 医学术语 有效解决 重要意义 专业术语 通用 词向量 高频词 信息化 智能化 中文 准确率 构建 病历 字典 登陆 文本 医疗 研究
【说明书】:

发明涉及一种基于大数据技术的电子病历文本解析闭环方法,从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计,获得包含更多未登陆词的字典,进而电子病历分词更为准确,词向量的计算也随之更准确,这样,更多的词可以被标注类别,达到提高命名实体识别准确率的实际效果,是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案,为中文电子病历文本解析提供了创新思路,对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务具有重要意义。

技术领域

本发明涉及一种基于大数据技术的电子病历文本解析闭环方法。

背景技术

文本信息是医疗信息资源的主要形式,占比达到95%以上。文本信息又以电子病历(Electronic Medical Record,EMR)为重要代表。电子病历作为记录患者诊疗全过程的重要文档集合,在信息化过程中,处在特别重要的地位。由于历史和实用方面的原因,电子病历由结构化和大量非结构化的内容构成,结构化的内容是指key-value形式,即键值对形式,非结构化的内容为自然语言。非结构化的输入形式带来了数据的多维性、不确定性,受控医学词汇表以及支持临床决策的临床数据仓库,使大量临床数据分散在不同的系统中,很难实现高效方便地获取病人完整和准确的诊疗信息。对电子病历文本进行分词处理,并从中抽取临床术语,是进行电子病历数据分析的基础。经过标准化处理的文本信息,通过查询、分析,才能真正辅助临床决策,实现精准医疗。

电子病历后结构化要在对电子病历文本进行准确的分词的基础上,为词语标注类别,并按类别标签分析语义和结构化梳理。由于医生的医疗知识融合于描述性的自由文本中,因而,电子病历文本具有以下特点:(1)包含大量的医学术语、缩略语和习惯用语,如“脑白质病”、“眼震”、“复视”、“示”、“伴”、“尚可”等.(2)语言结构与一般语境条件下的自然语言不同,结构不完整,但模式化较强,如描述症状是:身体部位+描述(“上肢可抬举”,“言语笨拙”);排除症状是:“否认/无”+描述(“无发热”)。(3)中文、英文缩写、数字混杂的现象比较普遍,如以数字+单位的检查结果和英文缩写词表示的检查或治疗手段:“100/70mmHg”、“3.0mm”、“CT”、“MMR”等。(4)为了表达清晰,用半结构化的方式组织各部分内容。以上均为计算机自动处理制造了障碍。

国内已有的中文病历文本分词研究虽然取得了良好的进展,但尚无法满足病历文本处理的需要。采用不同的中文分词工具,对慢性乙肝患者的常见临床表现的描述:“面色黧黑,口唇紫暗,面部可见到毛细血管扩张,胸前散在蜘蛛痣,舌质红,苔微黄,脉弦细”进行分词测试,国内已有的中文病历文本分词软件分词效果显示:对于“散在”、“蜘蛛痣”、“毛细血管”、“脉弦”等专业词汇均有不同程度的无法识别。同时,选取一段包含“注射用细辛脑”、“苦碟子注射液”、“注射用香菇多糖”、“消癌平注射液”、“盐酸氨溴索”、“环磷腺苷葡胺”、“阿加曲班注射液”共七个药品名称的文本分词测试结果得到:多数分词软件均不能完整地识别出某一个药品名称。

总而言之,虽然常用分词工具能在自然文本或者人们经常使用的文本中有不错的分词效果和较髙的正确率,但是对于拥有很多专业用语的医学文本处理,各个分词工具都不能达到比较理想的效果。因而自然语言处理、信息抽取等相关技术在电子病历的分析和挖掘中将发挥重要的作用。同时病历文本的半结构化特点和语言特点给自然语言处理技术的应用带来新的挑战和机遇。挑战主要在于电子病历文本行文风格与开放领域文本或其他领域文本迥然不同。因此,已有的基础处理工具如分词、词性标注、句法分析在电子病历文本上的效果尚待进一步提升。另一方面,对于分好的词,还需进行类别标签的标注,判断其在业务上的属性,以利于更多规律的发现。

发明内容

本发明要解决的技术问题是:目前缺乏中文电子病历的分词和词性标注研究。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万达信息股份有限公司,未经万达信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811578717.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top