[发明专利]一种面向异构网页的数据收集与标注方法在审

申请号：	201610879670.4	申请日：	2016-10-09
公开（公告）号：	CN106294885A	公开（公告）日：	2017-01-04
发明（设计）人：	孙仕亮;陈俊宇	申请（专利权）人：	华东师范大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海蓝迪专利商标事务所(普通合伙)31215	代理人：	徐筱梅,张翔
地址：	200241 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向异构网页的数据收集与标注方法，该方法采用XPath与正则表达式的对收集到的数据进行解析，通过查询是否存在对应的DOM节点从而判断对应的网页页面结构，并给下面的标注工作提供了一个先验知识，在标注过程中仅需对预标注的数据进行标注修正，即可完成标注。本发明能够有效地整合数据的收集与数据的分类操作，使得数据挖掘的进展能够高效地进行。相比传统的数据收集方法，本发明收集质量更高，垃圾数据收集率低，数据分类准确。
搜索关键词：	一种面向网页数据收集标注方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种面向异构网页的数据收集与标注方法，其特征在于，该方法包括以下具体步骤：步骤1：从初始的URL中获取网页；步骤2：向所获取的网页的服务器发送HTTP请求，并将请求的内容返回到客户端；步骤3：客户端接到请求后，使用解析器对HTML页面进行解析；步骤4：使用正则表达式匹配所需的信息，并获取其中的超链接，筛选出数据库中重复的超链接后，将该超链接加入到爬虫队列中；步骤5：重复上述步骤2‑4，依次完成并添加结构化的数据到数据库中；步骤6：对数据库中获取到的数据进行数据清洗工作；步骤7：标注人使用标注系统，从数据库中分配相应的标注任务开始标注；步骤8：标注人完成一个标注任务后，重复请求服务器进行分配任务；步骤9：重复标注步骤7、步骤8直至数据已标注完毕。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华东师范大学，未经华东师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610879670.4/，转载请声明来源钻瓜专利网。

上一篇：一种基于PCIE总线的SMP计算系统
下一篇：一种从HBase中全量抽取数据的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向异构网页的数据收集与标注方法在审

专利文献下载