[发明专利]基于阈值匹配模型的相似度分析系统和方法有效
申请号: | 201310456063.3 | 申请日: | 2013-09-29 |
公开(公告)号: | CN103473373A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 李登高;张应才 | 申请(专利权)人: | 方正国际软件有限公司;方正国际软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 215123 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 阈值 匹配 模型 相似 分析 系统 方法 | ||
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种基于阈值匹配模型的相似度分析系统和方法。
背景技术
目前我国医疗信息化是多形态并存并逐步完善,最终的目标达到医疗信息社会化。医疗系统中各系统相互独立,例如门急诊系统、住院、体检系统、影像中心等,部分系统的患者信息数据要求低,录入不完整。各业务系统标准不一致、业务字段不一致、或语言表达差异,从而导致患者信息没有关联,系统间信息独立。患者数据只有部分字段有效,并不能对患者进行唯一性确认,缺失标识。也没有很好的处理方式来确定记录之间的关系,不能确定不同的记录是不是表达同一个对象,即便相同的部分较多,也不能确定是否是同一个对象。
因此,需要一种相似度分析方案,来确定不同的记录是不是表达同一个对象,为判断系统分析结果的正确性和可靠性提供依据。
发明内容
本发明正是基于上述技术问题,提出了一种相似度分析方案,来确定不同的记录是不是表达同一个对象,为判断系统分析结果的正确性和可靠性提供依据。
有鉴于此,根据本发明的一个方面,提出了一种基于阈值匹配模型的相似度分析系统,包括:获取单元,用于获取匹配对,所述匹配对包含两个记录;处理单元,按照预设规则计算出所述两个记录的相似度;关系确定单元,用于比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
在该技术方案中,首先在大数据量中获取初步确定的匹配对,该匹配对具有相似的字段值。在获取匹配对后,需要进一步确定匹配对中两个记录的相似度,根据两个记录的相似度与相似度阈值的大小来确定两个记录的关系。
在上述技术方案中,优选的,每个记录包含一个或多个字段,所述处理单元进一步用于针对所述两个记录的相同字段,计算所述两个记录的相同字段的相似值,根据所述相同字段的相似值确定所述相似度。
由于每个记录可能包含多个字段,因此需要针对每个字段进行比较,计算出两个记录的相同字段对应的字段值之间的相似值,从而根据字段值的相似值来确定记录之间的相似度。
在上述技术方案中,优选的,还可以包括:存储器,保存设置的所述记录的每一字段的匹配概率,所述匹配概率包括正向概率、逆向概率、正向权重和/或逆向权重,所述正向概率是若两个字段匹配,则表示同一个对象的概率,所述逆向概率是若两个字段不匹配,则表示不是一个对象的概率。
预先设置自动的匹配概率,例如若记录的字段包括姓名字段、身份证字段、家庭地址字段,可以设置身份证字段的匹配概率较大,而家庭地址字段的匹配概率较小,这样针对不同的字段,其对应的相似值在记录的最终相似度中所占的比重是不一样的,可提高相似度的准确性。
在上述技术方案中,优选的,所述处理单元进一步用于基于所述匹配概率计算出所述相同字段的相似值,在所述两个记录具有多个相同字段时,将各相同字段的对应相似值之和作为所述两个记录的相似度。
在计算出不同字段的相似值之后,可将所有字段的相似值相加得到两个记录之间最终的相似度值。当然也可以是其他处理方式例如相乘得到最终的相似度值。
在上述任一技术方案中,优选的,所述相似度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;所述关系确定单元进一步用于在所述两个记录的相似度大于等于所述第一阈值时,确定所述两个记录的关系为匹配关系并生成用于关联所述两个记录的唯一标识,在所述两个记录的相似度小于所述第一阈值且大于所述第二阈值时,确定所述两个记录的关系为疑似关系,以及在所述两个记录的相似度小于等于所述第二阈值时,确定所述两个记录的关系为不匹配关系。
为相似度设置两个界限,第一阈值即高界限,第二阈值即低界限。若计算出的相似度高于第一阈值,说明这两个记录表示同一个对象的可能性非常大,那么可确定这两个记录是匹配关系;若计算出的相似度在高界限与低界限之间,那么说明这两个记录可能表示同一个对象,可能性不是很大,需要进行人工确定这两个记录是否表示同一个对象;若计算出的相似度在低于低界限,那么说明这两个记录不可能表示同一个对象,可确定这两个记录不是匹配关系。
根据本发明的另一方面,还提供了一种基于阈值匹配模型的相似度分析方法,包括:获取匹配对,所述匹配对包含两个记录;按照预设规则计算出所述两个记录的相似度;比较所述两个记录的相似度和设定的相似度阈值的大小,根据比较结果确定所述两个记录的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件有限公司;方正国际软件(北京)有限公司,未经方正国际软件有限公司;方正国际软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310456063.3/2.html,转载请声明来源钻瓜专利网。