[发明专利]一种结构化病历查重的方法、装置和存储介质在审
申请号: | 202210285313.0 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114694783A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 徐达雄;李程扬;黄艺纯;江振华;王远春 | 申请(专利权)人: | 智业软件股份有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/242;G06F16/245;G06F40/279 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 张锐 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 病历 方法 装置 存储 介质 | ||
本发明涉及数字医疗技术领域。本发明公开了一种结构化病历查重的方法,所述方法包括:获取结构化病历,对结构化病历进行过滤得到病历数据,提取病历数据中的一个或多个关键词;提取关键词的64位指纹特征,对关键词对应的64位指纹特征进行加权累加,得到结构化病历的64位特征序列串;将64位特征序列串分成连续的4段16位子序列串,根据结构化病历的4段16位子序列串、病历类别和疾病诊断编码生成查询语句,基于查询语句从病历数据库中获取查询结果;确定结构化病历的64位特征序列串与查询结果中包含的病历的64位特征序列串的海明距离,根据海明距离确定是否查询到重复的病历。本发明能够快速定位到相似的结构化病历,查重效率更高。
技术领域
本发明涉及数字医疗技术领域,尤其涉及一种结构化病历查重的方法、装置和存储介质。
背景技术
在医疗信息系统中,医生通过模板快速生成病历文档,再按照结构化的方式进行书写。但是,存在部分医生通过复制粘贴功能,快速完成病历书写,出现了拷贝病历的情况。尤其是在具有相同疾病的患者时,出现主诉、现病史、既往史和处理方式等完全一样的情况,甚至连标点符号也会一样。拷贝病历导致病历失去了价值,是对患者的不负责任,造成医疗文书书写质量差,可能会引起医疗纠纷。
现有拷贝病历的筛查工作要么需要大量人工介入比对,要么就通过程序单纯地进行文本比对,查重效率都十分低下。
发明内容
本发明还提出一种结构化病历查重的方法,基于结构化病历在病历数据库中查询是否存在重复的病历,包括:
S1,获取所述结构化病历,根据预先定义的标签属性,过滤掉所述结构化病历中与所述标签属性对应的标签内容,得到病历数据,提取所述病历数据中的一个或多个关键词;
S2,使用哈希算法提取所述关键词的64位二进制指纹特征,对所述关键词对应的64位二进制指纹特征进行加权累加,得到所述结构化病历的64位二进制特征序列串;
S3,将所述64位二进制特征序列串分成连续的4段16位二进制子序列串,根据所述4段16位二进制子序列串、所述结构化病历的病历类别和所述结构化病历的疾病诊断编码生成与所述病历数据库对应的查询语句,基于所述查询语句从所述病历数据库中获取查询结果;
S4,确定所述结构化病历的64位二进制特征序列串与所述查询结果中包含的病历的64位二进制特征序列串的海明距离,当所述海明距离小于或等于3时,则查询到重复的病历,否则未查询到重复的病历。
进一步的,所述结构化病历的格式为HTML格式,所述标签属性为HTML格式的标签属性。
进一步的,所述步骤S1中提取所述病历数据中的一个或多个关键词包括步骤:
S31,对所述病历数据按照完整句子进行分割,得到多个分割后的句子;
S32,对每个分割后的句子进行分词和词性标注,并过滤掉停用词,将词性满足预定条件的单词作为候选关键词;
S33,构建候选关键词图G=(V,E),其中V为节点集,所述节点集中的节点对应所述候选关键词,E为边的集合,采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,其中K为正整数;
S34,根据迭代计算公式初始化各节点的权重,然后迭代计算各节点的权重,直至收敛,所述迭代计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智业软件股份有限公司,未经智业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210285313.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生成票据的方法、装置以及存储介质
- 下一篇:一种发泡陶瓷板及其制备方法