[发明专利]一种自动解析互联网网页的方法在审
申请号: | 201410560978.3 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104268283A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 范莹;于治楼;梁华勇 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 解析 互联网 网页 方法 | ||
1.一种自动解析互联网网页的方法,其特征是用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:
选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;
②根据网页分词结果的图形化展示,提供正则表达式匹配项;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;
⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
2.根据权利要求1所述的一种自动解析互联网网页的方法,其特征是所述的步骤中行业的代表网页是用户认为的且选择的一行业涉及的网页。
3.根据权利要求1或2所述的一种自动解析互联网网页的方法,其特征是所述的步骤②中正则表达式的形式是数字替换,替换指定内容,删除指定内容,删除空行,指定数字,指定内容中的一种或几种组合。
4.根据权利要求3所述的一种自动解析互联网网页的方法,其特征是所述的步骤⑤中标签是TAG标签和GET标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410560978.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:绿色环保水果、花卉种植机
- 下一篇:一种可清理过滤阀的滴灌装置