[发明专利]一种结构化病历查重的方法、装置和存储介质在审
申请号: | 202210285313.0 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114694783A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 徐达雄;李程扬;黄艺纯;江振华;王远春 | 申请(专利权)人: | 智业软件股份有限公司 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/242;G06F16/245;G06F40/279 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 张锐 |
地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 病历 方法 装置 存储 介质 | ||
1.一种结构化病历查重的方法,基于结构化病历在病历数据库中查询是否存在重复的病历,其特征在于,包括步骤:
S1,获取所述结构化病历,根据预先定义的标签属性,过滤掉所述结构化病历中与所述标签属性对应的标签内容,得到病历数据,提取所述病历数据中的一个或多个关键词;
S2,使用哈希算法提取所述关键词的64位二进制指纹特征,对所述关键词对应的64位二进制指纹特征进行加权累加,得到所述结构化病历的64位二进制特征序列串;
S3,将所述64位二进制特征序列串分成连续的4段16位二进制子序列串,根据所述4段16位二进制子序列串、所述结构化病历的病历类别和所述结构化病历的疾病诊断编码生成与所述病历数据库对应的查询语句,基于所述查询语句从所述病历数据库中获取查询结果;
S4,确定所述结构化病历的64位二进制特征序列串与所述查询结果中包含的病历的64位二进制特征序列串的海明距离,当所述海明距离小于或等于3时,则查询到重复的病历,否则未查询到重复的病历。
2.根据权利要求1所述的方法,其特征在于,所述结构化病历的格式为HTML格式,所述标签属性为HTML格式的标签属性。
3.根据权利要求1所述的方法,其特征在于,所述步骤S1中提取所述病历数据中的一个或多个关键词包括步骤:
S31,对所述病历数据按照完整句子进行分割,得到多个分割后的句子;
S32,对每个分割后的句子进行分词和词性标注,并过滤掉停用词,将词性满足预定条件的单词作为候选关键词;
S33,构建候选关键词图G=(V,E),其中V为节点集,所述节点集中的节点对应所述候选关键词,E为边的集合,采用共现关系构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,其中K为正整数;
S34,根据迭代计算公式初始化各节点的权重,然后迭代计算各节点的权重,直至收敛,所述迭代计算公式为:
其中,WS(Vi)表示节点Vi的排名值即节点的权重,d为阻尼因数,In(Vi)表示节点Vi的前驱节点集合,Out(Vj)表示节点Vj的后继节点集合,WS(Vj)表示节点Vj的排名值,wji为节点Vj和节点Vi之间的边的权重系数,wjk为节点Vj和节点Vk之间的边的权重系数,i、j和k均为正整数;
S35,对节点的权重进行倒序排序,从而得到最重要的T个单词,作为选中关键词,其中T为正整数;
S36,将所述步骤S35得到所述选中关键词在所述病历数据中进行标记,若形成相邻词组,则组合成多词关键词;
S37,将所述步骤S35得到的所述选中关键词和所述步骤S36得到的所述多词关键词作为结构化病历的关键词。
4.根据权利要求1所述的方法,其特征在于,所述步骤S2中的哈希算法为CityHash算法或MurmurHash算法。
5.根据权利要求1所述的方法,其特征在于,所述步骤S2中对所述关键词对应的64位二进制指纹特征进行加权累加使用的算法为SimHash算法。
6.根据权利要求1所述的方法,其特征在于,所述预先定义的标签属性至少包括基本信息和不可书写区域分别对应的标签属性。
7.根据权利要求1所述的方法,其特征在于,所述步骤S3中基于所述查询语句从所述病历数据库中获取查询结果,包括:基于所述查询语句从所述病历数据库中查询任意一段16位二进制子序列串、病历类别和疾病诊断编码分别与所述结构化病历的对应位置的一段16位二进制子序列串、病历类别和疾病诊断编码一致的病历。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智业软件股份有限公司,未经智业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210285313.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种生成票据的方法、装置以及存储介质
- 下一篇:一种发泡陶瓷板及其制备方法