[发明专利]一种提取html页面选定区域内容的方法无效

申请号：	201310204988.9	申请日：	2013-05-24
公开（公告）号：	CN103488665A	公开（公告）日：	2014-01-01
发明（设计）人：	赵冰	申请（专利权）人：	赵冰
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	暂无信息	代理人：	暂无信息
地址：	518001 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提取 html 页面选定区域内容方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种提取html页面中选定区域内容的方法，该程序包括多个方法，即许多个程序段。该方法的特征在于，在步骤1中，将html页面源码转换为页面html元素列表；在步骤2中，分析html页面代码中要提取的部分，制定一个页面分析模板，并将该模板转换为模板html元素列表；步骤3中，用步骤2生成的分析模板html元素列表在步骤1生成的页面html元素列表中进行最大相似度定位，找到页面的html元素列表中所有能够匹配分析模板html元素列表的段落所在位置；在步骤4中，用步骤3所定位出的html元素段落与分析模板中的元素匹配，从而确认分析模板中的所有变量、可变模板所对应到的页面html元素，在步骤5中，如果步骤4所提取出的可变模板所对应的不规则页面html元素中有需要提取出的信息，则再给可变模板定义子模板，将其与所对应的页面html元素列表匹配，进而通过子模板中定义的变量来获取格式并不规则的页面html元素列表中的可用信息。

2.根据权利要求1所述的方法，其特征在于，将html页面源码作为字符串读入，并将该字符串解析为页面html元素列表。

3.根据权利要求1或2所述的方法，其特征在于，分析html页面中选定区域的html元素，制定页面分析模板，模板分三种元素，一，常量，即该区域html代码中必然出现且内容不变的部分，通常为静态html代码；二，变量，即该区域html代码中必然出现且可变的部分，通常为动态html代码；三，可变模板，即该区域可能出现也可能不出现的html代码，通常也为动态html代码。在模板定义完成之后，将该模板字符串转换为模板html元素列表。

4.根据权利要求1、2或3所述的方法，其特征在于，通过使用自定义的最大相似度算法，将模板html元素列表在页面html元素列表上进行定位，找出页面html元素列表上所有能够匹配模板html元素列表的段落。

5.根据权利要求1、2、3或4所述的方法，其特征在于，用模板html元素列表与定位的页面html元素列表段落进行匹配，找出对应模板中变量、可变模板的页面元素内容。即为所欲提取出的页面信息。

6.根据权利要求1、2、3、4或5所述的方法，其特征在于，如果可变模板所对应的html元素中还有进一步需要提取的信息，则需再给可变模板定义子模板，将其与所对应的html元素列表匹配，进而通过子模板中定义的变量来获取格式并不规则的页面html元素列表中的可用信息。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赵冰，未经赵冰许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310204988.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提取html页面选定区域内容的方法无效

专利文献下载