[发明专利]一种用于为网站生成网站地图的方法及系统有效
申请号: | 201611235483.9 | 申请日: | 2016-12-28 |
公开(公告)号: | CN108255831B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 刘海超;谢宇;张玉魁 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/955 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 网站 生成 地图 方法 系统 | ||
本发明提供了一种用于为网站生成网站地图的方法,通过对网站中所有的有效链接的元数据的收集和修改,根据元数据对有效数据进行分类,并根据分类结果生成多个网站地图进行推送或保存,方便搜索引擎蜘蛛爬行至网站的所有有效链接,提高蜘蛛的爬行效率,进而使用户进行搜索网站的相关关键词时,被收录的网站可以更好的被搜索引擎选中并显示给用户。
技术领域
本发明涉及数据网络技术领域,并且更具体地,涉及一种用于为网站生成网站地图的方法及系统。
背景技术
在现有的网站或者论坛大部分网站地图生成都是一次生成然后不断来添加新的数据信息,来等待蜘蛛抓取,而且网站地图的更新也很慢,对链接地址的检测是否是死链也没有做到有效的处理,导致搜索引擎无法及时更新网站的相关信息,使网站在相关关键词被搜索时无法显示至用户。
例如,纳税服务网网站的根目录下就只有一个snewiteffmap.xml文件,这个文件就是网站的网站地图文件,统计网站地图文件中只有39799条链接,而且网站地图文件里包含的链接地址也没有经过死链过滤,网站的网站地图文件只在各大搜索引擎处手动提交过一次,随后也没有进行过更新处理,使得网站中新出现的优秀文章或链接等无法及时得到蜘蛛的抓取。
因此,为了方便搜索引擎蜘蛛抓取网站页面,需要一种网站地图的生成方法,使得生成的网站地图文件可以提高蜘蛛的爬行效率。
发明内容
为了解决上述问题,根据本发明的一方面,提供一种用于为网站生成网站地图的方法,所述方法包括:
确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
根据每个有效链接的经过修改的多个元数据中的一个或多个元数据,对每个有效链接进行分类,其中每个分类包括至少一个有效链接;以及
将每个分类中的至少一个有效链接生成网站地图子图,将多个网站地图子图进行组合以生成网站地图。
优选地,所述网站地图的文件格式为HTML格式、XML格式或TXT格式。
优选地,所述元数据为描述所述有效链接的短句或与所述有效链接相关的关键词。
优选地,所述多个网站地图子图中每个网站地图子图的有效链接数量不超过5万条且多个网站地图子图中的每个网站地图子图的大小不超过10M。
优选地,通过有效链接检测工具进行检测所述网站的链接是否为有效链接。
优选地,所述有效链接检测工具为站长工具或Xenu死链接检测工具。
优选地,所述网站地图子图还包括与有效链接相应的多个元数据。
优选地,所述网站地图生成后推送至搜索引擎接口和/或保存至网站的根目录。
根据本发明的另一方面,提供一种用于为网站生成网站地图的系统,包括:
初始单元,用于确定网站地图的文件格式,并且基于所述文件格式确定需要收集的多个元数据;
链接收集单元,以所述网站的网址作为数据收集起点,从所述数据收集起点开始收集所述网站的所有有效链接;
元数据收集单元,为所述所有有效链接中的每个有效链接确定需要收集的多个元数据;
元数据修改单元,根据用户预先设置的规则来修改所述多个元数据中的一个或多个元数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611235483.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种在线资源管理方法及装置
- 下一篇:舆情处理系统及方法