[发明专利]一种发现相似网站版块的方法、系统、介质及设备在审

申请号：	201911350444.7	申请日：	2019-12-24
公开（公告）号：	CN111078962A	公开（公告）日：	2020-04-28
发明（设计）人：	张军	申请（专利权）人：	北京海致星图科技有限公司
主分类号：	G06F16/903	分类号：	G06F16/903;G06F8/36
代理公司：	北京化育知识产权代理有限公司 11833	代理人：	涂琪顺
地址：	100000 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种发现相似网站版块方法系统介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种发现相似网站版块的方法、系统、介质及设备，该方法包括：获取已知站点和对比站点的版块的网页内容；分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。本发明在某站点版块采集程序开发完成的基础上，可用于相似结构网站批量发现和规模性复用，达到开发一个，覆盖多个的效果，最终提高开发整体效率。

技术领域

本发明涉及网络技术领域，具体涉及一种发现相似网站版块的方法、系统、介质及设备。

背景技术

大数据公司通常对外部数据需求非常强烈，而互联网数据非常分散。常规一个站点一个站点的开发模式效率低，难以满足大数据场景下的海量需求。

发明内容

针对上述技术问题，本发明提供一种发现相似网站版块的方法、系统、介质及设备。

本发明解决上述技术问题的技术方案如下：一种发现相似网站版块的方法，包括：

获取已知站点和对比站点的版块的网页内容；

分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；

对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。

本发明的有益效果是：在某站点版块采集程序开发完成的基础上，可用于相似结构网站批量发现和规模性复用，达到开发一个，覆盖多个的效果，最终提高开发整体效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，生成第一摘要字符串组或第二摘要字符串组的具体过程包括：

根据内容区段判断信息从所述网页内容中抽取内容区段；

对抽取的内容区段进行如下处理：将各个html tag的内容部分全部清除；根据html属性知识库将各个html tag中的应去除属性清除；将连续tr缩减，只保留第一条tr；所有连续空格缩减为1个空格，回车换行符全部删除，全部转换为小写，在摘要字符串组中记录下得到的字符串；根据html属性知识库，循环将可去除属性清除，在所述摘要字符串组中记录下得到的字符串；

输出所述摘要字符串组。

进一步，所述对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值的具体过程包括：

循环读取所述第一摘要字符串组和第二摘要字符串组；

取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串，进行相似度计算；

如果相似度达到预指定阈值，则返回并记录该相似度值，否则继续，直到计算结束。

进一步，还包括：

按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。

为实现上述发明目的，本发明还提供一种发现相似网站版块的系统，包括：

获取模块，用于获取已知站点和对比站点的版块的网页内容；

生成模块，用于分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组；

计算模块，用于对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算，如果达到指定阈值，则记录所述对比站点对应的相似度值。

进一步,所述生成模块具体包括：