[发明专利]一种自动解析互联网网页的方法在审
申请号: | 201410560978.3 | 申请日: | 2014-10-21 |
公开(公告)号: | CN104268283A | 公开(公告)日: | 2015-01-07 |
发明(设计)人: | 范莹;于治楼;梁华勇 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 解析 互联网 网页 方法 | ||
技术领域
本发明涉及一种自动解析互联网网页的方法,属于网页解析领域。
背景技术
广大网民用户获取信息,通过在网页搜索获取结果,没法提供按行业特征进行分类筛选的服务,无法分类显示,然而哪些内容是用户本次搜索中想搜到的则无法进行判断,用户需要花很长时间在结果中找自己需要的信息。而垂直搜索,是网站针对其站内信息的搜索服务,其网站内的信息是由其站内用户直接将各种信息添加入该网站的各个分类中,虽然分类清晰,但搜索范围较窄,而且即使相同类的网站每个网站的组织形式、网页结构千差万别,需要从中抽取所需信息相当困难,用户需通过与其他搜索引擎配合使用才能了解到全面的信息。然而,本发明提供 一种自动解析互联网网页的方法,在垂直搜索的基础上利用正则表达式及标签解析技术对进行网页进行解析,对所有采集网页进行模板分类后,对每一类网页取出网页代表进行结构化抽取,得到相同类网页的结构化数据作为模板,使用户可以直接利用某个行业相同类的模板对不同网站进行搜索,获取想要获得的信息。
正则表达式,英语为Regular Expression、regex或regexp,缩写为RE,也译为正规表示法、常规表示法,在计算机科学中,是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。
发明内容
本发明针对现有技术存在的不足和问题,提供 一种自动解析互联网网页的方法,提出的具体方案是:
一种自动解析互联网网页的方法,用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:
①选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;
②根据网页分词结果的图形化展示,提供正则表达式匹配项;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;
⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
所述的步骤①中行业的代表网页是用户认为的且选择的一行业涉及的网页。
所述的步骤②中正则表达式的形式是数字替换,替换指定内容,删除指定内容,删除空行,指定数字,指定内容中的一种或几种组合。
所述的步骤⑤中标签是TAG标签和GET标签。
本发明的有益之处是:本发明一种自动解析互联网网页的方法,利用垂直搜索引擎和普通的网页搜索引擎的区别,对网页信息进行了结构化信息抽取,将网页的非结构化数据抽取成特定的结构化信息数据;然后将这些数据存储到数据库,进行进一步的加工处理,最后分词、索引再以搜索的方式满足用户的需求;本发明利用分词、正则表达式及标签解析技术,达到垂直搜索引擎实现了智能网页解析的目的。
附图说明
图1 一种自动解析互联网网页的方法流程示意图。
具体实施方式
结合实例,对本发明进行具体描述。
实施例1
以购物网站为例,用户利用垂直搜索在网站搜索,具体步骤如下:
①选取购物网站的代表网页比如淘宝,搜索男士衬衫,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户,最常出现的情况,将男士和衬衫进行了分词;
②根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用数字替换,比如男士替换成222,衬衫为444;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板遇到购物网站,搜索男士衬衫就利用正则表达式替换成222,444进行搜索;
⑤给垂直搜索模板加TAG标签,根据垂直搜索模板,自动解析行业涉及的所有网页。
实施例2
以教育网站为例,用户利用垂直搜索在网站搜索,具体步骤如下:
①选取教育网站的代表网页比如新东方,搜索中学英语,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户,最常出现的情况,将中学和英语进行了分词;
②根据网页分词结果的图形化展示,提供正则表达式匹配项,正则表达式采用替换内容方式,比如中学替换成zx,英语为yy;
③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410560978.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:绿色环保水果、花卉种植机
- 下一篇:一种可清理过滤阀的滴灌装置