[发明专利]网页数据抓取过滤方法有效

申请号：	201110448055.5	申请日：	2011-12-29
公开（公告）号：	CN102567521A	公开（公告）日：	2012-07-11
发明（设计）人：	金炜杰	申请（专利权）人：	维构（上海）文化传媒有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海申汇专利代理有限公司 31001	代理人：	金碎平
地址：	201907 上海市嘉***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页数据抓取过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网页数据抓取过滤方法，其特征在于，包括如下步骤：

a) 获取网页Html代码；

b) 将Html转化为XML序列表；

c) 对XML序列表利用信息关键词进行模糊匹配获取网页数据。

2.如权利要求1所述的网页数据抓取过滤方法，其特征在于，所述步骤a)使用C#.NET中的WebClient来读取某一网站的全部Html代码。

3.如权利要求1所述的网页数据抓取过滤方法，其特征在于，所述步骤b)将Html转化为XML序列表包括如下步骤：

删除网页脚本程序；

删除网页HTML中常规无关项；

再把网页Html全部标签化，并将Html中所有标签全部闭合；

最后使用微软的XML序列化方法，使整个Html代码XML序列化，生成XML文件。

4.如权利要求3所述的网页数据抓取过滤方法，其特征在于，所述网页脚本程序为所有<Script></Script>之间的网页脚本程序，包括JavaScript或VBScript程序。

5.如权利要求3所述的网页数据抓取过滤方法，其特征在于，所述网页HTML中常规无关项包括网页标题或网页描述。

6.如权利要求1所述的网页数据抓取过滤方法，其特征在于，所述步骤c)中的网页数据为BBS列表，获取过程包括如下步骤：

获取XML文件中表格节点的子节点数量；

删除所有存在子表格的外层表格代码，留下最内层表格；

删除所有行数小于5，且列数小于5的表格；

利用正则表达式搜索匹配BBS文章中的信息关键词。

7.如权利要求6所述的网页数据抓取过滤方法，其特征在于，所述信息关键词包括“标题”、“作者”、“点击量/回复量”、“发帖时间”、“回复时间”。

8.如权利要求7所述的网页数据抓取过滤方法，其特征在于，所述信息关键词的判断顺序如下：先判断“发帖时间”或“回复时间”的列；接着判断“点击量/回复量”的列；最后判断“标题”和“作者”的列。

9.如权利要求8所述的网页数据抓取过滤方法，其特征在于，所述“标题”和“作者”根据以下方法综合判断：a.“标题”在“作者”的左边；b. “标题”的文字长度大于“作者”名字的长度； c.“标题”位于表格的前1，2，3列，“作者”紧贴“标题”的右侧列。

10.如权利要求8所述的网页数据抓取过滤方法，其特征在于，所述“发帖时间”和“回复时间”根据以下方法判断：使用正则表达式匹配的方法，去匹配包含各种中文日期、中文时间、英文日期、英文时间、或者阿拉伯数字加中文字混合的常规的日期时间表达方式；如发现一列内容中包含2个日期或时间的，或者用“/”符号隔开的，则判断日期或时间小的那个是“发帖时间”，而日期或时间大的那个是最近“回复时间”；同样，如果遇到有两列都是日期时间的，则判断日期时间小的是“发帖时间”、日期时间大的是“回复时间”。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于维构（上海）文化传媒有限公司，未经维构（上海）文化传媒有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201110448055.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页数据抓取过滤方法有效

专利文献下载