[发明专利]一种基于多特征的医疗保险欺诈检测方法有效
申请号: | 201510492558.0 | 申请日: | 2015-08-12 |
公开(公告)号: | CN105159948B | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数联易康科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多特征的医疗保险数据欺诈检测方法。该方法针对医疗保险申报数据中患有某一种疾病的所有病人的治疗记录,结合医药分类知识,采用概率统计、混合高斯建模、特征融合等技术提取多种更具区分度的二级特征数据,再基于二级特征数据对病人的治疗记录进行向量化,然后通过将标注为“正常”的治疗数据进行聚类分析后,采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面,以实现对未标注的医疗保险数据进行欺诈检测。该方法能快速、有效地检测医疗保险数据中存在的欺诈数据,具有较高的准确性。 | ||
搜索关键词: | 一种 基于 特征 医疗保险 欺诈 检测 方法 | ||
【主权项】:
1.一种基于多特征的医疗保险欺诈检测方法,其特征在于,包括以下步骤:(1)、针对某一种疾病,筛选得到医疗保险数据中患有该疾病的所有病人的治疗记录,将病人治疗记录中各种治疗项目(包括各种用药、检查、化验等治疗项目)的用量情况进行向量化;假设某一种疾病病人治疗记录的总数为N,涉及的治疗项目的总数为m,则每一条病人治疗记录可向量化为xi=(xi,1,xi,2...,xi,m),1≤i≤N其中xi,j为第i条病人治疗记录中第j种治疗项目的用量;根据疾病所涉及的m种治疗项目,统计每种治疗项目在所有N条治疗记录中出现的频率,即治疗项目在N条记录中出现的次数与记录总数N的比值,分别记为p1,p2…,pm;(2)、采用概率统计、高斯建模、特征融合等技术提取多种更具区分度的二级特征数据,将第i条病人治疗记录中提取的二级特征数据记为zi=(zi,l,zi,2...,zi,G),1≤i≤N,具体步骤如下:(2.1)、计算每一条病人治疗记录i中常用治疗项目之间的平均共现率zi,1;定义记录中某治疗项目j的使用频率pj大于f%的为常用治疗项目,其中,f%”中的变量f为人工定义的阈值;对于某治疗记录中k个常用治疗项目,计算k个常用治疗项目中任意两种治疗项目a和治疗项目b的共现率pab,即同时采用治疗项目a和治疗项目b的记录数比上采用治疗项目a或治疗项目b的记录数;治疗记录i中常用治疗项目之间的平均共现率zi,1的计算公式为:
(2.2)、计算每一条病人治疗记录i中治疗方案的合理性;根据治疗记录i中各个治疗项目j在所有治疗记录中出现的频率pj,计算治疗记录i中治疗方案的合理性zi,2,计算公式为:
其中l表示治疗记录i中使用的治疗项目的总数;(2.3)、应用混合高斯建模技术提取每一条病人治疗记录中属于某大类治疗项目的用量或费用混合高斯模型的隶属概率;首先将治疗项目按照医院大类标准进行分类,可得H个大类,对于每一个大类,应用混合高斯建模技术可得某大类用量或费用随机向量x所满足的混合高斯模型为:
其中r表示高斯模型的个数,aj为第j个单高斯模型在混合模型中占的权重,Nj则表示第j个高斯模型的概率密度函数,μj为所有二级特征向量第j维的均值总共可得2H个混合高斯分布;对于每一条病人治疗记录i提取该记录中属于某大类用量或费用混合高斯模型的隶属概率,其计算公式为:
其中xi为序号为i的病人治疗记录,μj为所有二级特征向量第j维的均值用于度量该条病人记录中使用该大类治疗项目的用量或费用水平;对于每条病人记录可得余下的zi,3...,zi,G共2H个余下的二级特征;(2.4)使用Z‑score标准化方法标准化上面步骤中得到的G维二级特征向量zi=(zi,1,zi,2...,zi,G),1≤i≤N;对每一维度j,采用公式
进行标准化,其中μj为所有二级特征向量第j维的均值,σj为所有二级特征向量第j维的标准差,得到标准化后的G维二级特征向量z′i=(z′i,1,z′i,2...,z′i,G),1≤i≤N,其中,z′i和z′i,j分别为标准化后的G维二级特征向量和标准化后的G维二级特征向量中的分量;(3)、为了建立医疗保险欺诈检测模型,首先采用专家标注的方法,将治疗记录中的数据标注为“正常”和“欺诈”两种类型;然后针对数据集中标注为“正常”的样本数据,采用聚类分析技术对正常样本数据所对应的标准化后的G维二级特征向量z′i=(z′i,1,z′i,2…,z′i,G),1≤i≤i≤N进行聚类;最后采用非线性支持向量机分类技术将聚类后的每一类正常治疗数据分别与标注为“欺诈”的治疗数据建立多个分类超平面,以实现对医疗保险的欺诈检测;具体步骤如下:(3.1)采用k‑means算法确定最优的聚类数目K;应用误差平方和最小公式
(其中z′为属于第j个类簇Cj的标准化后的G维二级特征向量,
为第个类簇Cj的标准化后的G维二级特征均值向量)选取误差平方和(Sum of Squared Error)最小的K值作为聚类的结果,得到K个类簇C1,C2...,CK;(3.2)将上面步骤中得到的K值作为混合高斯模型中高斯分布的数目,应用混合高斯聚类模型,将数据集中标注“正常”的样本数据聚为K个类簇V1,V2...,VK;(3.3)、采用非线性支持向量机分类算法,将步骤3.2中得到的正常样本数据的K个类簇V1,V2…,Vk分别与数据集中的欺诈样本数据建立分类平面,得到K个分类模型;分类模型中采用的非线性支持向量机的分类决策函数的公式为
其中ai是求解引入的拉格朗日乘子,yi是指标准化后的G维二级特征向量z′i对应的标签,即用‑1和1表示对应的记录是否为欺诈样本数据,z′为待分类识别的样本数据,K(z′i,z′)为选取的核函数,b是截距;(4)、应用步骤3中得到的医疗保险欺诈检测模型,对待识别的医疗保险数据进行欺诈检测;具体步骤如下:(4.1)将测试集数据应用步骤3.2中得到的混合高斯模型,对测试集数据进行聚类分析,得到测试集所属于的不同聚类簇V′1,V′2...,V′K;(4.2)根据4.1步骤中测试集数据得到的不同聚类结果V′1,V′2...,V′K,针对每个聚类簇的数据z′,根据z′所属的类别j,应用步骤3.3中得到的第j个非线性支持向量机分类模型进行分类,根据分类结果输出对应的该治疗记录是否存在欺诈。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联易康科技有限公司,未经成都数联易康科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510492558.0/,转载请声明来源钻瓜专利网。
- 上一篇:海量数据实时排序查询方法及系统
- 下一篇:信息推送方法和装置