[发明专利]雷同病历识别方法、装置、设备及存储介质在审
申请号: | 202111004061.1 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113569994A | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 满天龙 | 申请(专利权)人: | 平安医疗健康管理股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G16H10/60;G06F16/215 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 姚维 |
地址: | 200001 上海市黄浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 雷同 病历 识别 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能领域,公开了一种雷同病历识别方法、装置、设备及存储介质。方法包括:获取初始医保数据并对初始医保数据进行数据清洗,得到医保数据宽表并对医保数据宽表进行扫描,确定多个病历单据;基于预置图计算聚类分析模型对医保数据宽表进行关联关系分析,从多个病历单据中确定多组第一候选雷同病历单据;通过预置均值漂移聚类分析模型对多个病历单据进行聚类分析,从多个病历单据中确定多组第二候选雷同病历单据;对多组第一候选雷同病历单据及多组第二候选雷同病历单据进行数据归并,得到目标雷同病历集。本发明还涉及区块链技术,医保数据宽表可存储于区块链中。
技术领域
本发明涉及人工智能领域,尤其涉及一种雷同病历识别方法、装置、设备及存储介质。
背景技术
随着国家的发展与进步,医保制度得以不断的完善,也同时关乎着人民百姓的健康与生活。随着国家对医保报销力度的加大,覆盖范围的扩展,骗保欺诈行为同时更加严重恶化。医院与参保人会想尽办法骗取医保赔偿,基于大数据分析的智能的医保风控系统是抓取骗保行为的利器,为医保赔付提供了安全保障。
传统的智能医保风控方法,多以规则与简单的机器学习算法为基础。其面临传统规则引擎效率率低、覆盖面窄等问题,同时通过人工审核和识别的过程费时费力,针对这一痛点,亟需一种可以有效抓取医院制造雷同病历违规骗取医保赔偿的行为的方法。
发明内容
本发明的主要目的在于解决对于雷同病历识别效率较低的技术问题。
本发明第一方面提供了一种雷同病历识别方法,包括:获取初始医保数据并对所述初始医保数据进行数据清洗,得到对应的医保数据宽表并对所述医保数据宽表进行扫描,确定对应的多个病历单据;基于预置图计算聚类分析模型对所述医保数据宽表进行关联关系分析,从所述多个病历单据中确定对应的多组第一候选雷同病历单据,所述第一候选雷同病历单据是指包含预置明细分类维度数量小于预设阈值的病历单据;通过预置均值漂移聚类分析模型对所述多个病历单据进行聚类分析,从所述多个病历单据中确定对应的多组第二候选雷同病历单据,所述第二候选雷同病历单据是指包含预置明细分类维度数量大于或等于所述预设阈值的病历单据;对所述多组第一候选雷同病历单据及所述多组第二候选雷同病历单据进行数据归并,得到对应的目标雷同病历集。
可选的,在本发明第一方面的第一种实现方式中,所述获取初始医保数据并对所述初始医保数据进行数据清洗,得到对应的医保数据宽表并对所述医保数据宽表进行扫描,确定对应的多个病历单据包括:对所述初始医保数据进行解析,得到医保数据明细表;确定所述医保数据明细表中的异常值及重复值,并对应删除所述医保明细表中的异常值及重复值;确定所述医保明细表中的缺失值,并确定与所述缺失值所属变量类型相同的医保数据参数,并将所述医保数据参数写入所述缺失值所属变量类型的变量中,得到对应的医保数据宽表;对所述医保数据宽表进行关键词查询,确定对应的多个病历单据。
可选的,在本发明第一方面的第二种实现方式中,所述基于预置图计算聚类分析模型对所述医保数据宽表进行关联关系分析,从所述多个病历单据中确定对应的多组第一候选雷同病历单据包括:对所述医保数据宽表进行关系图构建,得到对应的数据关系图;通过所述预置图计算聚类分析模型及所述数据关系图对所述多个病历单据的预置明细分类维度进行雷同度计算,得到所述多个病历单据对应的多个雷同度,并根据所述多个雷同度从所述多个病历单据中确定多组第一候选雷同病历单据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安医疗健康管理股份有限公司,未经平安医疗健康管理股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004061.1/2.html,转载请声明来源钻瓜专利网。