[发明专利]一种基于加权融合的Loc2vec模型的重复数据检测方法在审
申请号: | 202110824753.4 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113591474A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 郑江滨;曹宏业;王寅隆 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 加权 融合 loc2vec 模型 重复 数据 检测 方法 | ||
本发明公开了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种重复数据检测方法。
背景技术
在自然语言处理、数据挖掘等领域,重复数据检测一直是学者们关注的重要主题,同时随着大数据时代的到来,信息增长迅速,对于信息数据的检索与匹配的需求越来越多,重复数据检测这一关键技术也发挥着越来越重要的作用。基于字符串的重复数据检测方法是直接对数据文本进行比较,主要包括最小编辑距离、最长公共子序列(LCS)等算法,基于字符串的检测方法的算法原理简单,实现较为方便,并且对文本直接进行比较,可用于文本快速匹配任务之中,但由于这类算法只考虑了字符串的结构特征,未进行语义内容的分析,重复数据检测准确率较低,且无法执行数据内容较为复杂的任务。
自2013年分布式词向量问世以来,基于深度学习的方法在重复性数据检测领域有了更多的成果,无监督的学习方法不需要依赖于标签数据信息就可以计算文本间的语义相似度,这类方法更加通用。Doc2vec是一种无监督式的学习算法,是Word2vec模型的拓展。计算出来的向量可以通过计算向量之间的距离来判定句子、短语以及文件之间的相似性。使用大规模的语料库进行模型训练,模型对于重复性数据的检测准确率较高,但也存在训练时间过长,检测效率低等问题。
发明内容
为了克服现有技术的不足,本发明提供了一种基于加权融合的Loc2vec模型的重复数据检测方法,首先,在数据处理层,将语料文件进行分词处理,将其用于Doc2vec模型的训练,同时对待检测的源数据进行分词处理,用于下一阶段的重复数据检测;随后在编码分析层,构建出训练后的Doc2vec模型,将该模型与LCS算法加权融合,得到用于核心字段重复性检测的加权相似度计算模型Loc2vec模型,使用Loc2vec模型对分词后的待检测数据进行相似度计算;最后,对数据相似度计算结果进行分析,相似度大于80%认定为重复数据,从而实现重复性数据项的检测。本发明使用大规模语料库对深度神经网络模型doc2vec进行无监督训练,可以充分使用语料库内的语义信息,大大减少了人工标记的工作量,提升了重复数据检测的效率与准确率。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:数据处理阶段:
对于待检测的源数据项和语料库,使用分词工具,进行分词处理,将处理后的语料库用于doc2vec基础模型训练,处理后的待检测源数据项用于下一阶段模型编码处理分析,同时对doc2vec基础模型进行参数设定,设定结果如表1所示;
表1 doc2vec基础模型参数
步骤2:编码分析阶段;
将步骤1中分词处理后的待检测源数据项使用doc2vec基础模型进行编码处理分析,处理的过程如下所示:
步骤2-1:定义源数据集为d{d1,d2...dn};
步骤2-2:使用doc2vec模型对源数据集进行训练,得到文本向量集为v{v(d1),v(d2)...v(dn)};
步骤2-3:采用余弦相似度计算公式,计算两个文本向量之间的语义相似度simDoc,计算公式如式(2):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110824753.4/2.html,转载请声明来源钻瓜专利网。