[发明专利]病历结构化方法有效
申请号: | 201810718504.5 | 申请日: | 2018-07-03 |
公开(公告)号: | CN109192255B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 胡腾 | 申请(专利权)人: | 北京左医科技有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/30;G06F40/117 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 陈潇潇;肖冰滨 |
地址: | 100044 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 病历 结构 方法 | ||
1.一种病历结构化方法,其特征在于,该方法包括:
获取关于多个医学术语的术语集合;
根据所述术语集合,将原始病历内容中的字符串切分为短语;
根据所述短语所匹配的所述术语集合中的医学术语,生成一个或多个候选句式,以生成候选句式集合;以及
从所述候选句式集合中筛选出最优句式作为标注结果;其中,
所述从所述候选句式集合中筛选出最优句式作为标注结果包括:
获取句式实例集合,所述句式实例集合中包括针对语义标注的正确句式实例;
将所述候选句式集合中的候选句式与所述正确句式实例进行匹配;以及
如果所述候选句式集合中存在与所述正确句式实例字符串完全匹配的第一候选句式,则将该第一候选句式作为所述标注结果;
和/或
获取句式实例集合,所述句式实例集合中包括针对所述语义标注的错误句式实例;
将所述候选句式集合中的候选句式与所述错误句式实例进行匹配;以及
如果所述候选句式集合中存在与所述错误句式实例匹配的第二候选句式,则从所述候选句式集合中过滤该第二候选句式;
根据标注结果,提取病历结构化信息。
2.根据权利要求1所述的方法,其特征在于,在所述从所述候选句式集合中筛选出最优句式作为所述标注结果之前,该方法还包括:
识别所述原始病历内容中的多个标题关键词;以及
将从所述多个标题关键词中的第一标题关键词到相临的第二标题关键词之前为止的内容作为所述第一标题关键词对应的段落,
其中,所述根据标注结果,提取病历结构化信息包括:
对应于每一所述段落提取所述病历结构化信息。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:
在所述将原始病历内容中的字符串切分为短语之前,识别所述原始病历内容中的无歧义短语和/或符号。
4.根据权利要求1所述的方法,其特征在于,所述根据所述术语集合,将原始病历内容中的字符串切分为短语包括:
利用所述医学术语构建词典前缀树和后缀树;以及
利用所述前缀树和所述后缀树对所述原始病历内容中的字符串进行正向最大匹配和逆向最大匹配,以将所述字符串切分为短语。
5.根据权利要求1所述的方法,其特征在于,所述从所述候选句式集合中筛选出最优句式作为标注结果包括:
获取关于所述医学术语之间的关系的术语关系集合;以及
根据所述术语关系集合,从所述候选句式集合中筛选出最优句式,以作为所述标注结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述术语关系集合,从所述候选句式集合中筛选出最优句式包括:
对于针对同一字符串生成的多个候选句式,根据该多个候选句式中每一者中相邻短语所对应的所述医学术语之间的术语关系,进行加权运算,加权运算结果最高的一者为所述最优句式。
7.根据权利要求6所述的方法,其特征在于,所述根据所述术语关系集合,从所述候选句式集合中筛选出最优句式还包括:
如果所述多个候选句式中的两者以上的加权运算结果同为最高值,则根据该两者以上的候选句式中,不相邻短语所对应的所述医学术语之间的术语关系进行扩展加权运算;
将所述扩展加权运算的加权运算结果最高的一者作为所述最优句式;
如果所述扩展加权运算的加权运算结果仍相同,则从所述多个候选句式或所述两者以上的候选句式中随机选取一个作为所述最优句式。
8.根据权利要求1所述的方法,其特征在于,所述从所述候选句式集合中筛选出最优句式作为所述标注结果还包括:
如果存在与所述正确句式实例部分匹配的第二候选句式,且所述第二候选句式的字符串比所述正确句式实例的字符串长度长,则将所述正确句式实例作为最优句式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京左医科技有限公司,未经北京左医科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810718504.5/1.html,转载请声明来源钻瓜专利网。