[发明专利]一种文章去重方法、装置、设备及存储介质在审
申请号: | 201910877090.5 | 申请日: | 2019-09-17 |
公开(公告)号: | CN112528114A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 任志伟 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955;G06F16/33 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 刘晓菲 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文章 方法 装置 设备 存储 介质 | ||
1.一种文章去重方法,其特征在于,所述方法包括:
获取目标文章,所述目标文章为待去重的文章;
确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
根据所述文章属性,对所述目标文章进行去重。
2.根据权利要求1所述的方法,其特征在于,所述文章属性具体为所述文章的特征参数,所述特征参数包括所述文章的发文作者、发文时间以及标题中的至少两种参数,和/或,所述特征参数包括所述文章的摘要、正文内容中的至少一种参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文章属性,对所述目标文章进行去重,包括:
对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值;
将哈希值相同的特征参数所对应的文章进行去重。
4.根据权利要求3所述的方法,其特征在于,所述特征参数包括所述发文作者、发文时间以及标题中的至少两种参数,所述对所述文章的特征参数进行哈希运算,得到所述特征参数的哈希值,包括:
将所述发文作者、发文时间以及标题中的至少两种参数进行字符串拼接,得到组合字符串;
对所述组合字符串进行哈希运算,得到所述组合字符串的哈希值。
5.根据权利要求2所述的方法,其特征在于,所述文章属性包括第一特征参数以及第二特征参数,所述第一特征参数与所述第二特征参数不同,所述根据所述文章属性,对所述目标文章进行去重,包括:
根据所述目标文章中每篇文章对应的所述第一特征参数,对所述目标文章进行去重,得到初步去重文章;
根据所述初步去重文章中每篇文章对应的第二特征参数,对所述初步去重文章再次进行去重,得到二次去重文章。
6.根据权利要求2所述的方法,其特征在于,所述根据所述文章属性,对所述目标文章进行去重,包括:
分别比较所述目标文章中的任意两篇文章的特征参数之间的相似度,直至完成所述目标文章中全部文章之间的比较;
将所述目标文章中特征参数的相似度不低于预设阈值的文章进行去重。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取目标文章,包括:
获取初始待去重文章以及所述初始待去重文章对应的统一资源定位符URL;
利用所述URL对所述初始待去重文章进行去重,得到所述目标文章。
8.一种文章去重装置,其特征在于,所述装置包括:
获取模块,用于获取目标文章,所述目标文章为待去重的文章;
确定模块,用于确定目标文章中每篇文章所对应的文章属性,所述文章属性用于唯一标识所述文章;
去重模块,用于根据所述文章属性,对所述目标文章进行去重。
9.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现所述权利要求1至7任一项所述的文章去重方法。
10.一种设备,其特征在于,所述设备包括至少一个处理器,以及与所述处理器连接的至少一个存储器;
所述存储器用于调用所述存储器中的程序指令,以执行权利要求1至7任一项所述的文章去重方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910877090.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安装Ambari的方法、装置和Ambari架构
- 下一篇:转运装置