[发明专利]文本查重方法、装置、设备及存储介质有效
申请号: | 201910535476.8 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110390084B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 崔德冠 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/289;G06K9/62 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 设备 存储 介质 | ||
1.一种文本查重方法,其特征在于,所述方法包括:
获取待查重文本,从所述待查重文本中提取预设维度的初始数据;
对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据;
基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度;
根据所述相似度获取所述待查重文本的查重结果;
其中,所述对所述初始数据进行预处理,并按预设分类策略将处理后的数据划分为不同重要程度的待查重数据的步骤,包括:
获取所述初始数据的数据类型或构成要素;
根据所述数据类型或所述构成要素将所述初始数据划分为文本数据、属性数据和数值数据,所述属性数据由表征文本词汇属性的数据构成,所述数值数据由文本中表征数值的数据构成,所述文本数据为除所述属性数据和所述数值数据之外的文字字符数据;
将所述文本数据转化为数字向量数据;
对所述属性数据中包含的属性词汇采用属性标识代替以获得属性标识数据;
将所述数值数据统一到相同的数值量纲,以获得量纲数值数据;
根据预设分类策略将所述数字向量数据、所述属性标识数据和所述量纲数值数据划分为不同重要程度的待查重数据;
其中,所述根据预设分类策略将所述数字向量数据、所述属性标识数据和所述量纲数值数据划分为不同重要程度的待查重数据的步骤,包括:
根据Spearman相关系数算法对所述数字向量数据进行相关系数计算,获得第一相关系数统计结果;
根据Kendall秩相关系数算法对所述属性标识数据进行相关系数计算,获得第二相关系数统计结果;
根据Pearson相关系数算法对所述量纲数值数据进行相关系数计算,获得第三相关系数统计结果;
根据所述第一相关系数统计结果、第二相关系数统计结果和第三相关系数统计结果将所述数字向量数据、所述属性标识数据和所述量纲数值数据划分为不同重要程度的待查重数据;
其中,所述重要程度包括第一重要程度、第二重要程度以及第三重要程度;
所述基于预设查重语料库以及所述重要程度依次对所述待查重数据进行相似度计算,获取各待查重数据的相似度的步骤,包括:
基于预设查重语料库获取所述第一重要程度的待查重数据对应的第一基准查重文本,利用预设相似度算法计算所述第一基准查重文本与所述第一重要程度的待查重数据之间的第一相似度;
检测所述第一相似度是否高于第一预设阈值以及所述第一相似度是否低于第二预设阈值,其中,所述第一预设阈值大于所述第二预设阈值;
若所述第一相似度低于所述第一预设阈值且高于所述第二预设阈值,则获取所述第二重要程度的待查重数据对应的第二基准查重文本,并对所述第二基准查重文本与所述第二重要程度的待查重数据进行字段匹配,根据字段匹配结果获取对应的第二相似度;
在检测到所述第二相似度满足预设相似度条件时,获取所述第三重要程度的待查重数据对应的第三基准查重文本,并对所述第三基准查重文本与所述第三重要程度的待查重数据进行检索匹配,根据检索匹配结果获取对应的第三相似度;
所述根据所述相似度获取所述待查重文本的查重结果的步骤,包括:
根据获取到的所述第一相似度、所述第二相似度以及所述第三相似度通过预设公式,确定所述待查重文本的查重结果;
其中,所述预设公式为,
式中,f(x)为查重结果,f(x)=1表示有重复,f(x)=0表示没有重复,s1为第一相似度,s2为第二相似度,s3为第三相似度,α为第一预设阈值,β为第二预设阈值,且α和β的取值范围为:0βα1。
2.如权利要求1所述的方法,其特征在于,按预设数据类型对所述初始数据进行数据提取以获取待处理数据,所述待处理数据包括文本数据;
对所述待处理数据进行预处理以获取处理后的数据,包括:
对所述文本数据进行分词以获取对应的词汇文本,去除所述词汇文本中包含的停用词,获得目标文本;
按所述目标文本的词汇序列将所述目标文本向量化,获取所述目标文本对应的数字向量,并将所述数字向量作为处理后的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910535476.8/1.html,转载请声明来源钻瓜专利网。