[发明专利]一种基于doc2vec模型与最小编辑距离的重复性数据检测方法在审
申请号: | 202110560489.8 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297844A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 郑江滨;曹宏业;杨洁 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 模型 最小 编辑 距离 重复性 数据 检测 方法 | ||
1.一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,包括以下步骤:
步骤1:模型初始化及数据预处理;
定义doc2vec基础模型参数;
使用分词工具对语料文件进行分词,构成语料数据集;
对结构化源数据进行字段划分,划分为核心字段和辅助字段;
步骤2:模型训练及数据处理;
步骤2-1:使用语料数据集对doc2vec基础模型进行模型训练,训练完成后获取用于语义判别的最终doc2vec模型;
步骤2-2:使用最终doc2vec模型对结构化源数据的核心字段进行语义相似性检测,获取语义相似的核心字段集合,具体的语义相似度检测步骤如下:
定义核心字段数据集为d{d1,d2...dn};
使用最终doc2vec模型对核心字段数据集进行语义判别,得到文本向量集v{v(d1),v(d2)...v(dn)};
采用余弦相似度计算公式,计算文本向量集中两个语义向量的语义相似度,计算公式如下:
对计算出的语义相似度从大到小排序,取前A个数据项构成核心字段语义相似数据集;
步骤3:重复性数据判别;
对核心字段语义相似数据集的语义向量,进一步使用最小编辑距离算法计算字段相似度:
设定字段相似度阈值Y2,将字段相似度大于阈值Y2的字段判定为核心字段重复数据项;
最后结合数据项辅助字段进行重复性数据判定:当核心字段重复数据项中有一个字段与任意一个辅助字段重复则认定该字段为重复性数据,最终获取重复性数据集合。
2.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述定义doc2vec基础模型参数如表1:
表1 doc2vec基础模型参数
3.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述分词工具为jieba分词工具。
4.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述核心字段为表征数据项语义内涵的字段,所述辅助字段为其余表征数据项信息的字段。
5.根据权利要求1所述的一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,其特征在于,所述字段相似度阈值A=10,Y2=0.75。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110560489.8/1.html,转载请声明来源钻瓜专利网。