[发明专利]一种数据驱动的从电子病历中提取信息的方法在审
申请号: | 202110859239.4 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113628705A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 韦嘉;叶翔赟 | 申请(专利权)人: | 上海基绪康生物科技有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F16/332;G06F16/35;G06F16/36 |
代理公司: | 武汉智新达知识产权代理事务所(特殊普通合伙) 42272 | 代理人: | 陈文森 |
地址: | 200000 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 驱动 电子 病历 提取 信息 方法 | ||
1.一种数据驱动的从电子病历中提取信息的方法,其特征在于,包括以下步骤:
S1、对收集的核心词汇库进行有效扩充,构建一个全面的跨领域的词汇库;
S2、利用词汇库去电子病历中提取包含时间-医学事件-描述这个三元组的结构化信息。
2.根据权利要求1所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,构建的词汇库由核心词汇库及其扩充部分组成,其包含六种类型的医学事件:疾病、症状、药物、身体部位名称、疗程信息以及临床检测信息。
3.根据权利要求2所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,对核心词汇库进行扩充的方法包括识别模式迭代法、动态术语组合法和方向型或者扩展型前缀法。
4.根据权利要求3所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述识别模式迭代法包括以下步骤:
1)从核心词汇库开始,在每一次的非监督迭代过程中,首先对整个电子病历主体进行扫描并鉴别出当前词汇库中还未被识别或者未包含被的词汇,然后选出其中比较可信的添加到当前词汇库中;
2)用这些词汇构建一系列候选的新识别模式,最后再从中筛选出较为可靠的模式用于下一次迭代中新词汇的搜索,如此循环直到没有新词汇被鉴别到为止。
5.根据权利要求4所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述动态术语组合法识别的不是一个个单独的词汇,而是词汇的组合,组合中每个独立的词汇可能都已经被包含在核心词汇库里了,但是它们组合后的词汇组往往没有被核心词汇库收录,这样的词汇组很多都以身体的某个部位作为前缀。
6.根据权利要求5所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述方向型或者扩展型前缀法为对于词汇库中的一个已知术语,如果它前面三个字符是方向性或者扩展性的词汇,则将这个新的组合也添加到词汇库中并以该已知术语作为其标签。
7.根据权利要求6所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,利用词汇库去电子病历中提取结构化的三元组信息中,信息提取的过程为如下步骤:
1)首先用一种医学事件标记算法和一系列时间识别规则从电子病历文本中鉴别出医学术语和时间词汇;
2)剩下的文本则被视为关于这些医学术语的候选描述,首先按照如下规则将其中明显不属于医学事件描述的句子去掉:
A、如果句子中包含着前面提到的非医学事件的术语,比如“非恶寒”等;
B、如果句子中包含病历中的一些常见用语,比如“入院”、“出院”、“住院”、“就诊”和“治疗”等;
3)然后建立所有可能的“时间-医学事件-描述”三元组,再用一种二元的支持向量机(SVM)模型将这些三元组分类为真或假组合,标记为真的组合就应该是某时间节点发生的医学事件在病历中的实际描述,反之,该三元组中的描述并非该事件的描述。
8.根据权利要求7所述的一种数据驱动的从电子病历中提取信息的方法,其特征在于,所述医学事件标记算法为对于输入的每一个句子,先标记这个句子中所有可能的代表某医学事件的短语,从最长到最短,然后用一个布尔阵列去记录那些这些被标记的短语,对每一个被标记的短语,首先看它的第一个和最后一个字符是否被标记了,如果它们中没有一个被标记,那么这个短语不需要被记录,于是布尔返回值为假,因为它的一部分或者全部很可能被包含在一个更长短语中,否则,检查该短语是否为词汇库中的收录,如果是,布尔返回值为真即要将它加入到被识别的医学事件里表中,同时将表示否定或者将来行动的词或者短语作为前缀的医学事件从识别列表中去除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海基绪康生物科技有限公司,未经上海基绪康生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110859239.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空调系统及其控制方法
- 下一篇:一种南繁水稻直播栽培方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置