[发明专利]一种网页去重方法、装置和设备有效

申请号：	202010200342.3	申请日：	2020-03-20
公开（公告）号：	CN111428180B	公开（公告）日：	2022-02-08
发明（设计）人：	李兆钧;林杨;雷小平	申请（专利权）人：	创优数字科技（广东）有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06F40/284;G06F40/30;G06F40/151
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	郭帅
地址：	516000 广东省广州市海珠区***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种网页去重方法、装置和设备，对海量网页进行二进制词向量的提取，利用二进制词向量对网页进行基于语义局部敏感散列表示，通过基于语义局部敏感散列表示进行网页内容比较，从而判断待比较网页是否为与预置数据存储结构中的网页内容重复的网页，充分利用了语义的相似性，降低了hash变换引入的随机噪声的影响，从而提高了重复网页的判别准确性，解决了现有的基于hash计算的网页去重方法准确率不高的技术问题。

技术领域

本申请涉及网页去重技术领域，尤其涉及一种网页去重方法、装置和设备。

背景技术

网页去重，即过滤掉重复的网页。互联网上有很多的页面内容是完全一样的或者是近似一样的，重复的数据不但不会带来任何价值，还会占用大量的存储空间，影响查询和计算性能，因此，需要进行网页去重。

现有的网页去重方法是将网页内容的文本进行分词，形成该文章的特征单词，然后去掉其中的噪音词，并为剩下的词加上权重，通过hash算法(哈希算法)把每个单词变成遗传由0和1组成的hash值，把hash值生成的结果按照单词的权重计算形成加权字符串，bit值为1，权重值乘以1，bit值为0则权重值乘以-1，把各个单词算出来的权重序列值按位相加，将结果转为0和1的序列：某一位大于0，则置为1，否则为0，最后分别计算两篇待比较的文章按计算出来的数值序列，比较其序列的海明距离，如果海明距离较小，则判定两篇文章为重复，需要将比较的文章去掉。这种基于hash计算的网页去重方法，hash是随机变化的，即使两个词语意思相近，但hash计算出来的结果可能是完全不一样的，因此，现有的这种hash计算判别网页是否重复的方法准确率不高。

发明内容

本申请提供了一种网页去重方法和装置，用于解决现有的基于hash计算的网页去重方法准确率不高的技术问题。

有鉴于此，本申请第一方面提供了一种网页去重方法，包括：

对获取到的海量网页的网页内容进行正文提取和文本预处理，得到网页文本数据；

对所述网页文本数据进行词向量训练，得到语料库中所有词条对应的实数值词向量；

对所述实数值词向量进行二进制转换，得到二进制词向量，存入预置数据存储结构中；

基于所述二进制词向量，对所述网页文本数据进行基于语义局部敏感散列表示转换，将得到的第一转换结果存入所述预置数据存储结构中；

将待比较网页进行基于语义局部敏感散列表示转换得到的第二转换结果与所述第一转换结果进行比较，若比较结果为重复，则去掉所述待比较网页，若比较结果为不重复，则将所述第二转换结果存入所述预置数据存储结构中。

可选地，所述预置数据存储结构为Redis。

可选地，所述对所述网页文本数据进行词向量训练，得到语料库中所有词条对应的实数值词向量，包括：

基于skip-gram模型对所述网页文本数据进行词向量训练，得到语料库中所有词条对应的100维实数值词向量。

可选地，所述对所述实数值词向量进行二进制转换，得到二进制词向量，存入预置数据存储结构中，包括：