[发明专利]基于医学文本信息的结构化医学数据库生成方法及系统在审
申请号: | 201710208112.X | 申请日: | 2017-03-31 |
公开(公告)号: | CN107145511A | 公开(公告)日: | 2017-09-08 |
发明(设计)人: | 马汉东;张少典 | 申请(专利权)人: | 上海森亿医疗科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/00 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 医学 文本 信息 结构 数据库 生成 方法 系统 | ||
技术领域
本发明涉及医学数据处理技术领域,特别涉及一种基于医学文本信息的结构化医学数据库生成方法及系统。
背景技术
非结构化医学文本信息的利用一直以来是技术领域的一大难点。现有技术一般使用人工或半人工方式处理医学文本信息。大部分有使用需求的医生或相关行业的从业人员采用人工阅读医学文本并做标准化录入的方式处理非结构化的历史医学数据(回顾性数据)。通用方法大致为,由相关人员自己或第三方技术提供商设计并编程实现电子化结构化表格(eCRF),然后由相关人员逐份人工肉眼扫描文本数据,发现相关信息后手动输入到结构化表格中。少数技术可以实现基于关键词匹配和标准制定的半自动化信息摘取,即从文本中匹配相关词汇或表达,提供辅助性工具方便人工肉眼读取信息。
即现有解决方案大量依赖拥有专业知识的人工,其过程耗时并且花销巨大。整个过程少有智能化辅助工具,即便是人工录入信息也会因为劳动强度和内容的重复枯燥而效率低下。例如,需要从电子病历中挖掘所有癌症患者并构建数据库。现阶段做法是直接搜“癌”或者“癌症”。改进的做法是将所有癌症的相关名称列下来,从病例中关键词匹配,找出对应的病人。然而有些特殊情况下,如“肺癌”之于“右下肺小细胞癌”(注意此处用肺癌为关键词就无法找到),或面对一种癌症的不标准表述方式,例如缩写或笔误等,现有方式就无法处理。这些技术的不足导致整个信息抽取的正确率和召回度都无法达到预计效果。即现有技术中均存在处理过程自动化、智能化不足,且人工成本极高。
发明内容
本发明的目的是提供一种基于医学文本信息的结构化医学数据库生成方法及系统,能够提升结构化医学数据库生成的自动化程度和智能化程度,大大降低人工成本,提高结构化医学数据库生成效率。
为解决上述技术问题,本发明提供一种基于医学文本信息的结构化医学数据库生成方法,所述方法包括:
获取输入的医学文本信息;
确定所述医学文本信息对应的自然语义处理模型,并利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理,得到处理结果;
确定所述处理结果中各处理数据对应的医学变量,并将各处理数据输入到对应医学变量的对应位置,得到结构化医学数据库。
可选的,确定所述医学文本信息对应的自然语义处理模型,包括:
提取所述医学文本信息的关键信息点;
根据所述关键信息点确定所述医学文本信息对应的医学文本类别;
确定所述医学文本类别对应的自然语义处理模型。
可选的,利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理,包括:
获取输入的颗粒度阈值;
使所述自然语义处理模型根据所述颗粒度阈值,对所述医学文本信息进行深度自然语义分析处理。
可选的,得到处理结果之后,还包括:
利用医学标准数据库对所述处理结果中包含的指定医学变量对应的处理结果进行标准化映射处理,得到标准化处理结果。
可选的,确定所述处理结果中各处理数据对应的医学变量,包括:
确定所述处理结果中各处理数据对应的初级医学变量;
利用人工规则整合修正逻辑对所述初级医学变量进行处理,得到初级医学变量处理结果;
当所述初级医学变量处理结果中存在高级医学变量时,根据对应处理数据以及所述高级医学变量对应的逻辑关系,生成高级医学变量处理数据。
可选的,获取输入的医学文本信息之后,还包括:
对所述医学文本信息进行数据脱敏处理。
本发明还提供一种基于医学文本信息的结构化医学数据库生成系统,包括:
获取模块,用于获取输入的医学文本信息;
自然语义处理模块,用于确定所述医学文本信息对应的自然语义处理模型,并利用所述自然语义处理模型对所述医学文本信息进行深度自然语义分析处理,得到处理结果;
结构化医学数据库生成模块,用于确定所述处理结果中各处理数据对应的医学变量,并将各处理数据输入到对应医学变量的对应位置,得到结构化医学数据库。
可选的,所述自然语义处理模块,包括:
颗粒度阈值获取单元,用于获取输入的颗粒度阈值;
自然语义处理单元,用于使所述自然语义处理模型根据所述颗粒度阈值,对所述医学文本信息进行深度自然语义分析处理。
可选的,本方案还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海森亿医疗科技有限公司,未经上海森亿医疗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710208112.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数学公式搜索方法及装置
- 下一篇:数据查询的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置