[发明专利]一种网页去重方法、装置和设备有效
申请号: | 202010200342.3 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111428180B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李兆钧;林杨;雷小平 | 申请(专利权)人: | 创优数字科技(广东)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F40/284;G06F40/30;G06F40/151 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 516000 广东省广州市海珠区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 方法 装置 设备 | ||
1.一种网页去重方法,其特征在于,包括:
对获取到的海量网页的网页内容进行正文提取和文本预处理,得到网页文本数据;
基于skip-gram模型对所述网页文本数据进行词向量训练,得到语料库中所有词条对应的100维实数值词向量;
对所述100维实数值词向量的每个分量的非负值转换为1,负值转换为0,组成100位的二进制词向量;
将所述二进制词向量转换为十六进制字符串,以词向量的词条作为key,十六进制字符串作为value,存储在Redis中;
从Redis中取出与所述海量网页的词条对应的二进制词向量;
将所述二进制词向量取值为0的分量转换为-1,组成100维的1和-1向量;
将各所述海量网页内容下所有词条的100维1和-1向量按照对应分量求和,得到结果为各个对应分量的100维代数和向量;
将所述代数和向量的非负分量转换为1,负分量转换为0,得到100维01向量,得到海量网页的基于语义局部敏感散列表示的第一转换结果;
以每10位为一段,将各所述海量网页的基于语义局部敏感散列表示划分为10段;
每次从所述10段中取出8段,按顺序拼接成一个80位二进制字符串,余下的2段按顺序拼接成20位二进制字符串,得到45对分别为80位和20位的组合二进制字符串;
将每对所述组合二进制字符串以80位二进制字符串转换为对应的十六进制字符串,作为Redis的key;
将每对所述组合二进制字符串对应的20位二进制字符串的210种变体插入以bitmap实现的布隆过滤器中;
将待比较网页进行基于语义局部敏感散列表示转换得到的第二转换结果与所述第一转换结果进行比较;
若所述待比较网页的45对80位二进制字符串在Redis中均不存在,则所述待比较网页是不重复的网页,将所述第二转换结果存入所述Redis中;
若所述待比较网页的45对80位二进制字符串在Redis中有至少一对在Redis中存在,则判断45对剩余的20位二进制字符串是否有至少一对存在于所述布隆过滤器中,若是,则所述待比较网页是重复网页,直接去除所述待比较网页,若否,则所述待比较网页不是重复网页,将所述第二转换结果存入所述Redis中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创优数字科技(广东)有限公司,未经创优数字科技(广东)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010200342.3/1.html,转载请声明来源钻瓜专利网。