[发明专利]一种基于doc2vec模型与最小编辑距离的重复性数据检测方法在审
申请号: | 202110560489.8 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297844A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 郑江滨;曹宏业;杨洁 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 模型 最小 编辑 距离 重复性 数据 检测 方法 | ||
本发明公开了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,首先,进行doc2vec模型的定义与训练,将语料文件进行分词处理后,将其用于模型训练,得到用于语义相似度检测的模型;随后,对结构化的数据进行数据字段的划分,明确核心字段以及辅助字段,针对核心字段进行语义相似度的计算,计算出语义最为相似的字符串集合,随后针对该集合使用最小编辑距离算法,计算出字符串的相似度,获取核心字段重复数据集;最后,结合辅助字段,辅助字段中存在一个内容重复的字段,则认定为重复数据项,从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率,为信息核查提供了有力的支撑,保证了数据的可靠性,从而为数据建设提供了智能化辅助。
技术领域
本发明属于模式识别技术领域,具体涉及一种重复性数据检测方法。
背景技术
随着大数据技术的发展,数据激增,在海量数据中存在大量的重复或相似数据,从而造成数据存储空间被大量占用、数据质量下降以及业务差错率上升等问题。因此如何有效进行数据查重,是一个亟待解决的问题。排序-合并思想是处理数据库完全重复数据的标准方法,俞荣华等人提出将字符串进行排序,针对排序后的结果计算编辑距离来判别数据的重复性。但使用编辑距离进行数据重复性判别时,未能考虑字符串位置颠倒、中文文字简称无法判别等问题。针对汉字字符串特点,邵清等人使用汉字拼音和五笔编码计算改进了该算法,但由于语言存在大量同义词、多义词导致在词形上无法匹配对应关心,模糊匹配的结果不够理想。藏润强等提出的一种基于编辑距离和TFRSF的文本相似度计算方法,通过计算词频与编辑距离,判断文本属性值,有效解决了字符串颠倒问题。刘月锟提出的基于约束的字符串相似度研究与应用,给出了相似字符串转换不可逆的定义,明确了当前计算字符串相似度的局限性,进一步提出具有约束属性的字符串概念,将字符串以及属性作为整体进行数据重复性的判别依据。
分布式词向量提出之后,基于深度学习的方法在数据查重领域有了更多的成果,无监督学习方法不需要带有标签的数据集就可以计算文本间的语义相似度,这类方法更加通用。针对中国政府部门文件,Li等人提出使用LDA与doc2vec模型结合的方法来实现文件级相似度的检测。曹祺等人提出了基于深度学习的doc2vec模型的对专利数据的相似度的检测方法,该方法对数据分析人员的专利领域知识要求较低,不需要专业人员对数据进行清洗。肖晗等人提出了文本相似度检测模型HybridDL,通过结合潜在迪利克雷分布来对doc2vec中的词向量增加主题属性权重,从而实现一种结合主题的深度学习检测方法。
可以看出,传统的数据查重方法往往仅考虑字符串的结构特征,未进行数据项语义分析。
发明内容
为了克服现有技术的不足,本发明提供了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,首先,进行doc2vec模型的定义与训练,将语料文件进行分词处理后,将其用于模型训练,得到用于语义相似度检测的模型;随后,对结构化的数据进行数据字段的划分,明确核心字段以及辅助字段,针对核心字段进行语义相似度的计算,计算出语义最为相似的字符串集合,随后针对该集合使用最小编辑距离算法,计算出字符串的相似度,获取核心字段重复数据集;最后,结合辅助字段,辅助字段中存在一个内容重复的字段,则认定为重复数据项,从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率,为信息核查提供了有力的支撑,保证了数据的可靠性,从而为数据建设提供了智能化辅助。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:模型初始化及数据预处理;
定义doc2vec基础模型参数;
使用分词工具对语料文件进行分词,构成语料数据集;
对结构化源数据进行字段划分,划分为核心字段和辅助字段;
步骤2:模型训练及数据处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110560489.8/2.html,转载请声明来源钻瓜专利网。