[发明专利]网页信息的处理方法和装置有效
申请号: | 201511031428.3 | 申请日: | 2015-12-31 |
公开(公告)号: | CN106933898B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 樊思国;贺达;李可欣 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951;G06F16/953;G06F16/9532 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 信息 处理 方法 装置 | ||
1.一种网页信息的处理方法,其特征在于,包括:
从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;
爬取所述统一资源定位符对应的待爬取网页的页面内容;
将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器;
其中,在将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,所述方法还包括:接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪;
其中,根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容包括:将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
2.根据权利要求1所述的方法,其特征在于,在爬取所述统一资源定位符对应的待爬取网页的页面内容之后,所述方法还包括:
标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;
将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储包括:将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
3.根据权利要求1所述的方法,其特征在于,爬取所述统一资源定位符对应的待爬取网页的页面内容包括:
爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;
对所述当前页面内容执行以下步骤,直到当前页面内容中不包含统一资源定位符为止:
检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
4.一种网页信息的处理装置,其特征在于,包括:
读取单元,用于从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;
爬取单元,用于爬取所述统一资源定位符对应的待爬取网页的页面内容;
存储单元,用于将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器;
其中,所述装置还包括:接收单元,用于在所述存储单元将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;查询单元,用于根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;计算单元,用于计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪;
其中,所述查询单元包括:匹配模块,用于将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;确定模块,用于将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
标记单元,用于在所述爬取单元爬取所述统一资源定位符对应的待爬取网页的页面内容之后,标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;
所述存储单元包括:存储模块,用于将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
6.根据权利要求4所述的装置,其特征在于,所述爬取单元包括:
爬取模块,用于爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;
对所述当前页面内容调用以下模块,直到当前页面内容中不包含统一资源定位符为止:
检测模块,用于检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511031428.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效紧凑型磁控镀膜装置
- 下一篇:一种防水型旋转阴极用磁芯轴
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置