[发明专利]网页信息的处理方法和装置有效
申请号: | 201511031428.3 | 申请日: | 2015-12-31 |
公开(公告)号: | CN106933898B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 樊思国;贺达;李可欣 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/951;G06F16/953;G06F16/9532 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 信息 处理 方法 装置 | ||
本申请公开了一种网页信息的处理方法和装置。其中,该方法包括:从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取统一资源定位符对应的待爬取网页的页面内容;将统一资源定位符对应的待爬取网页的页面内容与统一资源定位符对应的标签对应存储至服务器。本申请解决了现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页信息的处理方法和装置。
背景技术
在互联网舆情系统中,需要对某一地区的舆论(例如,某网页中的文章)情绪分布进行展示,以使给用户提供一个按地区进行区分的情绪值的参考。
现有技术中,对于地理位置的情绪分布是通过爬虫程序抓取微博、新闻等来源中已标明地理位置的微博和文章,并将地理信息和文章句子对于存入数据库,再利用情绪分析算法对文章中句子进行分析,得到相应的情绪值,从而实现情绪值和地理位置的对于关系。
在现有技术中,存在的问题是当有些微博和网站的文章没有对应的地理位置信息时,就无法得到该城市所有的微博和文章的对应关系,进而也无法获取情绪值。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网页信息的处理方法和装置,以至少解决现有技术中由于网页的页面内容中没有对应的地址位置信息导致无法确定该网页所在的地理区域的技术问题。
根据本申请实施例的一个方面,提供了一种网页信息的处理方法,包括:从统一资源定位符队列中读取待爬取网页的统一资源定位符,其中,所述统一资源定位符队列中每个统一资源定位符对应有表示相应待爬取网页的地理区域的标签;爬取所述统一资源定位符对应的待爬取网页的页面内容;将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器。
进一步地,在爬取所述统一资源定位符对应的待爬取网页的页面内容之后,所述方法还包括:标记所述统一资源定位符对应的标签至所述待爬取网页的页面内容;将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储包括:将标记所述统一资源定位符对应的标签之后的所述待爬取网页的页面内容进行存储。
进一步地,爬取所述统一资源定位符对应的待爬取网页的页面内容包括:爬取起始网页的页面内容,将该页面内容作为当前页面内容,其中,所述起始网页为所述统一资源定位符队列中每个统一资源定位符所对应的网页;对所述当前页面内容执行以下步骤,直到当前页面内容中不包含统一资源定位符为止:检测当前页面内容中是否包含统一资源定位符,检测出当前页面内容中包含统一资源定位符,则抽取当前页面内容中包含的统一资源定位符,爬取当前页面内容中包含的统一资源定位符对应的网页的页面内容,将该页面内容作为当前页面内容。
进一步地,在将所述统一资源定位符对应的待爬取网页的页面内容与所述统一资源定位符对应的标签对应存储至服务器之后,所述方法还包括:接收查询指令,其中,所述查询指令为查询目标区域内的页面内容的指令;根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容;计算所述目标区域内的页面内容的情绪值,其中,所述情绪值为用于反映目标区域的舆论情绪。
进一步地,根据所述查询指令在所述服务器中查询所属于所述目标区域内的页面内容包括:将所述服务器中存储的页面内容对应的标签与匹配标签进行匹配,其中,所述匹配标签为用于确定所述目标区域内的页面内容的标签;将所述服务器中与所述匹配标签匹配的标签对应的页面内容作为所述目标区域内的页面内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511031428.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效紧凑型磁控镀膜装置
- 下一篇:一种防水型旋转阴极用磁芯轴
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置