[发明专利]一种发现相似网站版块的方法、系统、介质及设备在审
申请号: | 201911350444.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111078962A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 张军 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F8/36 |
代理公司: | 北京化育知识产权代理有限公司 11833 | 代理人: | 涂琪顺 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发现 相似 网站 版块 方法 系统 介质 设备 | ||
本发明涉及一种发现相似网站版块的方法、系统、介质及设备,该方法包括:获取已知站点和对比站点的版块的网页内容;分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组;对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值。本发明在某站点版块采集程序开发完成的基础上,可用于相似结构网站批量发现和规模性复用,达到开发一个,覆盖多个的效果,最终提高开发整体效率。
技术领域
本发明涉及网络技术领域,具体涉及一种发现相似网站版块的方法、系统、介质及设备。
背景技术
大数据公司通常对外部数据需求非常强烈,而互联网数据非常分散。常规一个站点一个站点的开发模式效率低,难以满足大数据场景下的海量需求。
发明内容
针对上述技术问题,本发明提供一种发现相似网站版块的方法、系统、介质及设备。
本发明解决上述技术问题的技术方案如下:一种发现相似网站版块的方法,包括:
获取已知站点和对比站点的版块的网页内容;
分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组;
对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值。
本发明的有益效果是:在某站点版块采集程序开发完成的基础上,可用于相似结构网站批量发现和规模性复用,达到开发一个,覆盖多个的效果,最终提高开发整体效率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,生成第一摘要字符串组或第二摘要字符串组的具体过程包括:
根据内容区段判断信息从所述网页内容中抽取内容区段;
对抽取的内容区段进行如下处理:将各个html tag的内容部分全部清除;根据html属性知识库将各个html tag中的应去除属性清除;将连续tr缩减,只保留第一条tr;所有连续空格缩减为1个空格,回车换行符全部删除,全部转换为小写,在摘要字符串组中记录下得到的字符串;根据html属性知识库,循环将可去除属性清除,在所述摘要字符串组中记录下得到的字符串;
输出所述摘要字符串组。
进一步,所述对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值的具体过程包括:
循环读取所述第一摘要字符串组和第二摘要字符串组;
取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串,进行相似度计算;
如果相似度达到预指定阈值,则返回并记录该相似度值,否则继续,直到计算结束。
进一步,还包括:
按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。
为实现上述发明目的,本发明还提供一种发现相似网站版块的系统,包括:
获取模块,用于获取已知站点和对比站点的版块的网页内容;
生成模块,用于分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组;
计算模块,用于对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值。
进一步,所述生成模块具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911350444.7/2.html,转载请声明来源钻瓜专利网。