[发明专利]一种发现相似网站版块的方法、系统、介质及设备在审
申请号: | 201911350444.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111078962A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 张军 | 申请(专利权)人: | 北京海致星图科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F8/36 |
代理公司: | 北京化育知识产权代理有限公司 11833 | 代理人: | 涂琪顺 |
地址: | 100000 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发现 相似 网站 版块 方法 系统 介质 设备 | ||
1.一种发现相似网站版块的方法,其特征在于,包括:
获取已知站点和对比站点的版块的网页内容;
分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组;
对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值。
2.根据权利要求1所述的一种发现相似网站版块的方法,其特征在于,生成第一摘要字符串组或第二摘要字符串组的具体过程包括:
根据内容区段判断信息从所述网页内容中抽取内容区段;
对抽取的内容区段进行如下处理:将各个html tag的内容部分全部清除;根据html属性知识库将各个html tag中的应去除属性清除;将连续tr缩减,只保留第一条tr;所有连续空格缩减为1个空格,回车换行符全部删除,全部转换为小写,在摘要字符串组中记录下得到的字符串;根据html属性知识库,循环将可去除属性清除,在所述摘要字符串组中记录下得到的字符串;
输出所述摘要字符串组。
3.根据权利要求1所述的一种发现相似网站版块的方法,其特征在于,所述对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值的具体过程包括:
循环读取所述第一摘要字符串组和第二摘要字符串组;
取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串,进行相似度计算;
如果相似度达到预指定阈值,则返回并记录该相似度值,否则继续,直到计算结束。
4.根据权利要求1至3任一项所述的一种发现相似网站版块的方法,其特征在于,还包括:
按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。
5.一种发现相似网站版块的系统,其特征在于,包括:
获取模块,用于获取已知站点和对比站点的版块的网页内容;
生成模块,用于分别根据所述已知站点和对比站点的版块的网页内容生成第一摘要字符串组和第二摘要字符串组;
计算模块,用于对所述第一摘要字符串组和第二摘要字符串组进行对应性相似度计算,如果达到指定阈值,则记录所述对比站点对应的相似度值。
6.根据权利要求5所述的一种发现相似网站版块的系统,其特征在于,所述生成模块具体包括:
抽取单元,用于根据内容区段判断信息从所述网页内容中抽取内容区段;
处理单元,用于对抽取的内容区段进行如下处理:将各个html tag的内容部分全部清除;根据html属性知识库将各个html tag中的应去除属性清除;将连续tr缩减,只保留第一条tr;所有连续空格缩减为1个空格,回车换行符全部删除,全部转换为小写,在摘要字符串组中记录下得到的字符串;根据html属性知识库,循环将可去除属性清除,在所述摘要字符串组中记录下得到的字符串;
输出单元,用于输出所述摘要字符串组。
7.根据权利要求5所述的一种发现相似网站版块的系统,其特征在于,所述计算模块具体包括:
读取单元,用于循环读取所述第一摘要字符串组和第二摘要字符串组;
计算单元,用于取出所述第一摘要字符串组和第二摘要字符串组中对应的字符串,进行相似度计算;
记录单元,用于如果相似度达到预指定阈值,则返回并记录该相似度值,否则继续,直到计算结束。
8.根据权利要求5至7任一项所述的一种发现相似网站版块的系统,其特征在于,还包括:
排序模块,用于按照相似度值的大小顺序对各个对比站点进行排序并返回排序结果。
9.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使所述计算机执行根据权利要求1至4任一项所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911350444.7/1.html,转载请声明来源钻瓜专利网。