[发明专利]一种网络评论的采集方法及系统有效
申请号: | 201110415749.9 | 申请日: | 2011-12-13 |
公开(公告)号: | CN103164438A | 公开(公告)日: | 2013-06-19 |
发明(设计)人: | 张涛;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 评论 采集 方法 系统 | ||
技术领域
本发明涉及信息检索和数据集成技术领域,尤其涉及一种网络评论的采集方法及系统。
背景技术
目前,随着互联网技术的高速发展,互联网已经成了世界上最大的信息库,它几乎涵盖了人类所有领域,已经成为人们获取信息、交流信息的重要平台。为了方便人们查阅信息,基于互联网的信息检索技术也得到了深入的研究与长足发展,而基于信息检索的相关应用,诸如网络舆情分析、评价垂直搜索等也由此产生。这些应用技术都是首先将网页下载到本地,然后祛除杂质抽取出分析需要的内容,最后在此基础上进一步分析。
对于发布在互联网上的信息,网络用户能够在浏览信息后发表自己的想法,形成对该信息的评论。由于当前互联网的普及型性、广泛性和即时性,可以说网络评论在一定程度上代表了大众对某一事件的看法,这对舆情分析有着重大意义和应用空间。
因此,网络评论已成为多种应用重要数据源之一,采集网络评论数据源则是最基础的条件。而在现有技术中,对网络评论的采集研究几乎为空白,缺少对网络评论进行高效、全面的采集技术。
发明内容
本发明提供一种网络评论的采集方法及系统,可以高效、全面地采集网络评论。
本发明方法一方面提供了一种网络评论的采集方法,包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。
优选地,所述获取一网页入口链接地址具体包括:获取所述N个网络评论所评论的主题所在的主题网页;获取所述主题网页的特征码;获取所述主题所在频道的特征码;以及拼接所述主题网页的特征码和所述频道的特征码。
优选地,周期性刷新所述主题网页入口链接地址。
优选地,当所述网页上的网络评论无更新超过一预定时间,则删除所述网页入口链接地址。
优选地,所述判断所述N个网络评论中是否有M个网络评论满足采集的条件具体为:计算N和P的差值,如果N大于P,则表示有新的网络评论,且所述新增的网络评论的个数为N和P的差值M,其中P为上次访问所述页面时的网络评论的个数。
优选地,计算所述页面的当前页面上包含的网络评论的个数L,如果所述L小于M,则计算翻页的页数,并抽取与所述页数对应的翻页链接,其中L为正整数。
优选地,将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则抽取所述比对结果不同的M个网络评论。
优选地,所述判断所述N个网络评论中是否有M个网络评论满足采集的条件具体为:将所述N个网络评论中每一个网络评论与所述P个网络评论中每一个网络评论分别进行比对,如果比对结果不同,则确定所述M个网络评论为满足采集条件的网络评论。
优选地,将抽取的所述M个网络评论内容保存到一不同于所述网页的存储单元。
本发明另一方面提供一种网络评论的采集系统,所述系统包括:入口链接获取部件,用于获取一网页入口链接地址;第一判断部件,用于判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;第二判断部件,用于在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;内容采集部件,用于在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。
本发明有益效果如下:
本发明一实施例采用一网络评论采集系统采集网络评论,通过获取网络评论的入口链接地址及设定采集条件来实现全面采集网络评论的技术效果。
进一步,还采用了比对部件,可以实现将本次抽取的所有评论中的每一条评论和上一次抽取的所有评论中的每一条评论进行比对,然后采用了内容抽取部件只将比对结果不同的评论抽取出来,所以可以在全面采集网络评论的基础上达到高效采集的效果。
附图说明
图1为本发明一实施例中的采集方法的流程图;
图2为本发明图1中采集方法的详细流程图;
图3为本发明图1中采集方法的详细流程图;
图4为本发明第一实施例的采集系统架构图;
图5为本发明第二实施例的采集系统架构图;
图6为本发明第三实施例的采集系统架构图;
图7为本发明第四实施例的采集系统架构图;
图8为本发明另一实施例的采集系统架构图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110415749.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:面向虚拟现实的空间数据引擎方法
- 下一篇:地质信息的处理方法及装置