[发明专利]一种网页数据提取方法在审

申请号：	201210491213.X	申请日：	2012-11-27
公开（公告）号：	CN103838790A	公开（公告）日：	2014-06-04
发明（设计）人：	夏铭泽;侯辛酉	申请（专利权）人：	大连灵动科技发展有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	大连东方专利代理有限责任公司 21212	代理人：	曲永祚
地址：	116023 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种网页数据提取方法，包括以下步骤：对中英文网页及文字的判别处理、提取文本、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理和过滤网页数据字符和存储网页文本；本发明能够准确的提取出网页数据的文本信息，并能去除掉一些脚本以及过滤掉一些网页数据字符，保证提取文本的准确性；能够对特殊字符进行特殊的解析处理；能够识别中英文网页并能采取对应的处理措施，避免对网页数据进行错误的处理。
搜索关键词：	一种网页数据提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种网页数据提取方法，其特征在于包括以下步骤：A、对中英文网页及文字的判别处理；若超文本网页编码采用GB2312标准则为中文网页，否则为英文网页；对在网页标题及正文中的中文、英文或符号通过字符编码的范围进行判断；B、提取文本；B1、对获取的HTML源文件进行过滤处理并去掉其中的标签控制符提取文本信息；B2、去除脚本；去除脚本的方式包括两种，一种为对HTML进行解析时，若遇到Script开始标签，则查找Script结束标签，查找成功后在该结束标签后继续进行解析；另一种为默认脚本为文本并将其提取出来，然后再判断该文本是否为脚本代码，若是脚本则不予收集；C、根据预先建立的特殊字符表查找出网页数据中的特殊字符并对特殊字符进行处理；D、过滤网页数据字符和存储网页文本：对一个网页中的文本进行存储并对各分离的文本之间加上分隔符，同时将标签划分为分隔标签和普通标签，当两个文本之间为普通标签时则两个文本是连续文本；最后过滤网页数据后统一网页数据字符格式。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司，未经大连灵动科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210491213.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网页数据提取方法在审

专利文献下载