[发明专利]一种文章去重方法、装置、设备及存储介质在审
申请号: | 201910877090.5 | 申请日: | 2019-09-17 |
公开(公告)号: | CN112528114A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 任志伟 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文章 方法 装置 设备 存储 介质 | ||
本申请公开了一种文章去重方法、装置、设备及存储介质,包括:获取待去重的目标文章,并确定出该目标文章中每篇文章所对应的文章属性,该文章属性用于唯一标识文章;根据所确定出的每篇文章对应的文章属性对目标文章进行去重。由于文章属性与文章之间通常是一一对应的关系,因此,基于所确定出的文章属性对目标文章进行去重,可以使得去重后所得到的文章之间互不相同,从而降低了去重后的文章之间的重复率,进而可以提高去重后的文章数据的唯一性,也即提高了文章数据的去重效果。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种文章去重方法、装置、设备及存储介质。
背景技术
在对文章数据进行数据处理的过程中,数据的清洗去噪是相对来说较为重要的步骤。文章数据去噪效果的好坏,决定着最终所使用的文章数据的数据质量的高低,进而影响着后续对文章数据进行分析处理时所得到的分析结果的准确性。其中,去重,是指去除文章数据中内容重复的文章,也是对文章数据进行去噪处理过程中的一个重要方面。
现有的文章数据去重方式中,通常是基于文章对应的URL(Uniform ResourceLocator,统一资源定位符)来实现对文章数据的去重,但是,这种去重方式的效果较差,进行去重处理后所得到的文章数据中仍然存在较多内容重复的文章数据。
发明内容
本申请实施例提供了一种文章去重方法、装置、设备及存储介质,以去除重复的文章数据,降低文章数据中的重复率,从而提高文章数据的唯一性。
第一方面,本申请实施例提供了一种文章去重方法,所述方法包括:
获取目标文章,所述目标文章为待去重的文章;
确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
根据所述文章属性,对所述目标文章进行去重。
在一些可能的实施方式中,文章属性具体可以是文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。
在一些可能的实施方式中,所述根据所述文章属性,对所述目标文章进行去重,包括:
对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
将哈希值相同的特征参数所对应的文章进行去重。
在一些可能的实施方式中,所述特征参数包括发文作者、发文时间以及标题中至少两种参数,所述对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值,包括:
将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
在一些可能的实施方式中,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述根据所述文章属性,对所述目标文章进行去重,包括:
根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
在一些可能的实施方式中,所述根据所述文章属性,对所述目标文章进行去重,包括:
分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;
将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910877090.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安装Ambari的方法、装置和Ambari架构
- 下一篇:转运装置