[发明专利]一种基于doc2vec模型与最小编辑距离的重复性数据检测方法在审
申请号: | 202110560489.8 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297844A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 郑江滨;曹宏业;杨洁 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于doc2vec模型与最小编辑距离的重复性数据检测方法,首先,进行doc2vec模型的定义与训练,将语料文件进行分词处理后,将其用于模型训练,得到用于语义相似度检测的模型;随后,对结构化的数据进行数据字段的划分,明确核心字段以及辅助字段,针对核心字段进行语义相似度的计算,计算出语义最为相似的字符串集合,随后针对该集合使用最小编辑距离算法,计算出字符串的相似度,获取核心字段重复数据集;最后,结合辅助字段,辅助字段中存在一个内容重复的字段,则认定为重复数据项,从而实现重复性数据的检测。本发明的方法大大提升了数据查重的准确率,为信息核查提供了有力的支撑,保证了数据的可靠性,从而为数据建设提供了智能化辅助。 | ||
搜索关键词: | 一种 基于 doc2vec 模型 最小 编辑 距离 重复性 数据 检测 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202110560489.8/,转载请声明来源钻瓜专利网。