[发明专利]一种配电网数据的比对方法及终端在审
申请号: | 202210696758.8 | 申请日: | 2022-06-20 |
公开(公告)号: | CN115186138A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 吴桂联;张林垚;郑洁云;陈浩;唐露;廖锦霖;林婷婷;倪识远 | 申请(专利权)人: | 国网福建省电力有限公司经济技术研究院;国网福建省电力有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/903;G06F16/906;G06K9/62 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 张明 |
地址: | 350013 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 配电网 数据 方法 终端 | ||
本发明公开一种配电网数据的比对方法和终端,对配电网样本数据进行聚类分析,确定配电网样本数据对应的特征数据集合;根据特征数据集合分别对待比对的第一数据和第二数据进行打标,确定第一数据对应的第一特征分类和第二数据对应的第二特征分类;根据特征分类结果将第一数据和第二数据中具有相同特征分类的数据取相同字段分别进行拼接,得到第一数据对应的第一比对字符串和第二数据对应的第二比对字符串;计算所述第一比对字符串和第二比对字符串之间的海明距离,根据所述海明距离,确定所述第一数据和第二数据之间的相似度,通过特征分类结果与海明距离算法相结合,能够最大限度地匹配出相似的数据,大大提高了配电网数据的匹配准确度。
技术领域
本发明涉及数据比对领域,尤其涉及一种配电网数据的比对方法及终端。
背景技术
由于配电网数据的档案数据和运行数据可能存在于多个系统,在基于档案数据和运行数据进业务分析和辅助决策时,往往会遇到数据口径不一致,但又无法用统一的编码、名称进行强关联的问题。比如档案数据需要以A系统为准,运行数据需要以B系统为准,但A系统的档案数据和B系统的运行数据无唯一关联关系,在这种业务场景下,就需要对A、B两套系统的数据进行相似度匹配,取数据交集,这就涉及到不同数据之间的比对。
对于数据比对方案,应用较多的技术是将数据格式化、标准化,然后形成统一的文件格式或数据库模型,然后对文件或数据模型的固定列进行关联模糊匹配。应用算法主要包括文本模糊匹配算法、相似度算法和距离算法。
文本模糊匹配算法以SequenceMatcher为例,SequenceMatcher类可以用来比较两个任意类型的数据,只要是可以哈希的即可。它使用一个算法来计算序列的最长连续子序列,并且忽略没有意义的“无用数据”。其思想是寻找不包含“垃圾”元素的最长连续匹配子序列。这些“垃圾”元素在某种意义上是无趣的,比如空白行或空白(垃圾信息处理是Ratcliff和Obershelp算法的扩展)。然后,将相同的思想递归地应用到匹配子序列的左子序列和右子序列。这不会产生最小的编辑序列,但是会产生人们“看起来正确”的匹配。SequenceMatcher支持一种自动将某些序列项视为垃圾的启发式方法。启发式计算每个单独的项目在序列中出现的次数。如果一个项目的重复项(在第一个之后)占序列的1%以上,并且序列至少有200个项目长,则该项目将被标记为“popular”,并被视为垃圾,以便进行序列匹配。在创建SequenceMatcher时,可以通过将autojunk参数设置为False来关闭这种启发式。
相似度算法如余弦相似度(Cosine Similarity),是将一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。
距离算法如海明距离(Hamming distance),通过对两个位串进行异或(xor)运算,计算两个等长字符串之间对应位置的不同字符的个数,海明距离越短则相似度越高。
然而,上述算法各有各的缺点,比如在特定的业务场景下,比如数据特征较为明显、数据量较大的配电网数据中,文本模糊匹配算法的性能就不太理想;而在小文本内容比对的情况下,海明距离的计算误差较大。因此,如果采用现有的比对算法进行配电网数据的比对,匹配的准确度并不高。
发明内容
本发明所要解决的技术问题是:提供一种配电网数据的比对方法及终端,能够提高配电网数据的匹配准确度。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种配电网数据的比对方法,包括步骤:
S1、对配电网样本数据进行聚类分析,确定所述配电网样本数据对应的特征数据集合;
S2、根据所述特征数据集合分别对待比对的第一数据和第二数据进行打标,确定所述第一数据对应的第一特征分类和所述第二数据对应的第二特征分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网福建省电力有限公司经济技术研究院;国网福建省电力有限公司,未经国网福建省电力有限公司经济技术研究院;国网福建省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210696758.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置