[发明专利]一种网页数据提取方法在审

专利信息
申请号: 201210491213.X 申请日: 2012-11-27
公开(公告)号: CN103838790A 公开(公告)日: 2014-06-04
发明(设计)人: 夏铭泽;侯辛酉 申请(专利权)人: 大连灵动科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 曲永祚
地址: 116023 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种网页数据提取方法,包括以下步骤:对中英文网页及文字的判别处理、提取文本、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理和过滤网页数据字符和存储网页文本;本发明能够准确的提取出网页数据的文本信息,并能去除掉一些脚本以及过滤掉一些网页数据字符,保证提取文本的准确性;能够对特殊字符进行特殊的解析处理;能够识别中英文网页并能采取对应的处理措施,避免对网页数据进行错误的处理。
搜索关键词: 一种 网页 数据 提取 方法
【主权项】:
一种网页数据提取方法,其特征在于包括以下步骤:A、对中英文网页及文字的判别处理;若超文本网页编码采用GB2312标准则为中文网页,否则为英文网页;对在网页标题及正文中的中文、英文或符号通过字符编码的范围进行判断;B、提取文本;B1、对获取的HTML源文件进行过滤处理并去掉其中的标签控制符提取文本信息;B2、去除脚本;去除脚本的方式包括两种,一种为对HTML进行解析时,若遇到Script开始标签,则查找Script结束标签,查找成功后在该结束标签后继续进行解析;另一种为默认脚本为文本并将其提取出来,然后再判断该文本是否为脚本代码,若是脚本则不予收集;C、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理;D、过滤网页数据字符和存储网页文本:对一个网页中的文本进行存储并对各分离的文本之间加上分隔符,同时将标签划分为分隔标签和普通标签,当两个文本之间为普通标签时则两个文本是连续文本;最后过滤网页数据后统一网页数据字符格式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210491213.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top