[发明专利]网页快照的生成方法及装置有效
申请号: | 201610104459.5 | 申请日: | 2016-02-25 |
公开(公告)号: | CN105787032B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 熊正祥 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴开磊 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页快照 生成 方法 装置 | ||
1.一种网页快照的生成方法,其特征在于,包括:
在按照关键字搜索到网页资源之后,获取所述网页资源对应的网页内容;
从所述网页内容所包含的所述关键字中筛选未添加链接的关键字;
按照预设规则为所述未添加链接的关键字添加链接,得到所述网页资源对应的网页快照。
2.如权利要求1所述的网页快照的生成方法,其特征在于,所述从所述网页内容所包含的所述关键字中筛选未添加链接的关键字,包括:
获取所述网页内容中已添加链接的文本的区域标识和所述关键字的区域标识;
根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字。
3.如权利要求2所述的网页快照的生成方法,其特征在于,所述获取所述网页内容中已添加链接的文本的区域标识,包括:
从所述网页内容的源代码中顺次选择符合第一预设规则的每组第一起始字符和第一结束字符;
分别记录所述每组第一起始字符和第一结束字符在所述源代码中对应的顺序号,作为每段所述已添加链接的文本的区域标识。
4.如权利要求2所述的网页快照的生成方法,其特征在于,所述获取所述网页内容中所述关键字的区域标识,包括:
从所述网页内容的源代码中顺次选择符合第二预设规则的每组第二起始字符和第二结束字符;
分别记录所述每组第二起始字符和第二结束字符在所述源代码中对应的顺序号,作为每组所述关键字的区域标识。
5.如权利要求2至4中任一项所述的网页快照的生成方法,其特征在于,所述根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字,包括:
确定顺序号小于第二起始字符顺序号的第一起始字符中最大的第一起始字符顺序号;
判断所述第一起始字符对应的第一结束字符的顺序号是否小于所述第二起始字符的顺序号;
当所述第一起始字符对应的第一结束字符的顺序号小于所述第二起始字符的顺序号,将所述第二起始字符对应的关键字确定为所述未添加链接的关键字;或者,
确定顺序号大于第二结束字符顺序号的第一结束字符中最小的第一结束字符顺序号;
判断所述第一结束字符对应的第一起始字符的顺序号是否大于所述第二结束字符的顺序号;
当所述第一结束字符对应的第一起始字符的顺序号大于所述第二结束字符的顺序号时,将所述第二结束字符对应的关键字确定为所述未添加链接的关键字。
6.一种网页快照的生成装置,其特征在于,包括:
获取模块,用于在按照关键字搜索到网页资源之后,获取所述网页资源对应的网页内容;
筛选模块,用于从所述网页内容所包含的所述关键字中筛选未添加链接的关键字;
添加模块,用于按照预设规则为所述未添加链接的关键字添加链接,得到所述网页资源对应的网页快照。
7.如权利要求6所述的网页快照的生成装置,其特征在于,所述筛选模块包括获取单元和确定单元,其中,
所述获取单元,用于获取所述网页内容中已添加链接的文本的区域标识和所述关键字的区域标识;
所述确定单元,用于根据所述区域标识将区域不属于所述已添加链接的文本区域的关键字确定为未添加链接的关键字。
8.如权利要求7所述的网页快照的生成装置,其特征在于,所述获取单元包括选择子单元和记录子单元,其中,
所述选择子单元,用于从所述网页内容的源代码中顺次选择符合第一预设规则的每组第一起始字符和第一结束字符;
所述记录子单元,用于分别记录所述每组第一起始字符和第一结束字符在所述源代码中对应的顺序号,作为每段所述已添加链接的文本的区域标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610104459.5/1.html,转载请声明来源钻瓜专利网。