[发明专利]动态网页生成方法和装置、提取结构化数据的方法和装置无效
申请号: | 200810093493.2 | 申请日: | 2008-04-29 |
公开(公告)号: | CN101571860A | 公开(公告)日: | 2009-11-04 |
发明(设计)人: | 俞益琴;肖文鹏;迟长燕;赵石顽 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 高少蔚;李德山 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 网页 生成 方法 装置 提取 结构 数据 | ||
技术领域
本发明涉及互联网技术,更具体地说本发明涉及动态网页生成方法和装置、以及从动态网页中提取结构化数据的方法和装置。
背景技术
随着计算机和互联网技术的发展,万维网(World Wide Web)已经成为公开各种类型和各种形式的信息的主要形式之一,其数量呈爆炸式增长,格式灵活多样,并且在不断动态更新。因此可以毫不夸张地说,网络已经淹没在信息的海洋中并且即将面临着信息过剩的困境。结果,网络用户在与网络交互时遇到了很多困难,比如很难有效地找到期望的相关信息。另外,对于网络用户来说,从网络上可以利用的信息创建新的知识也是极不便利的。
鉴于上述原因,开发出了诸如Google和百度之类的搜索引擎,从而为用户提供了一种在网络上搜索有用信息的界面。另外,对于低粒度的信息检索,开发出了网络挖掘技术并将其用于从网络中检索信息。网络挖掘技术目前常用的包括例如信息检索(information retrieval,IR)、信息提取(information extraction,IE)、以及数据挖掘(data mining,DM)等等,用以从网络中检索对象层级的内容。但是,由于网络中信息的组织模式的原因,导致了比如计算机的机器自动地高效完成这些任务非常困难。
网络上所公开的文档通常称作网页,其一般都是用称作HTML的语言来进行公开,而HTML为文档的格式规定了标准格式。虽然以HTML格式呈现对于阅读者来说非常便利,但是从HTML文档中进行信息检索以便进行自动化处理则非常困难。例如,网页中的导航(菜单)信息和广告导致搜索引擎的结果中出现大量垃圾信息,这些噪声信息也会导致网络挖掘的精度下降。
因此,非常需要一种能够从网页中检索和提取有用的相关信息的技术,以便将网络中用户不期望的诸如广告的垃圾信息过滤掉,从而提高网络的利用效率。
发明内容
鉴于上述情况,本发明提供一种动态网页生成方法和装置、以及从动态网页中提取结构化数据的方法和装置,通过分析动态网页并从中检索和提取有用的相关信息,避免索引诸如网页中的广告区域和导航条之类的噪声数据来帮助搜索引擎优化其搜索结果。
本发明还提供一种动态网页生成方法和装置、以及从动态网页中提取结构化数据的方法和装置,通过分析动态网页并从中检索和提取有用的相关信息,在网络挖掘中从非结构化的网页中提取结构化的数据,从而有效地扩展数据库。
根据本发明的一个方面,提供一种动态网页生成方法,包括:分析源代码以生成句元流;根据语法规则对句元流进行匹配,以找到匹配的源代码块;以及对匹配的源代码块添加相应类型的元信息。
优选地,该动态网页生成方法还包括,在分析源代码之前解析HTTP请求。如果HTTP请求为请求用于浏览器的网页,则生成没有添加所述元信息的HTTP响应;而如果HTTP请求中包含提取网页中的数据的请求,则生成添加有所述元信息的HTTP响应。
根据本发明的另一个方面,提供一种动态网页生成装置,包括:代码分析器,用于对源代码进行分析,以生成句元流;句元匹配器,用于根据语法规则对代码分析器生成的句元流进行匹配,以找到匹配的源代码块;以及元信息添加单元,用于对句元匹配器输出的匹配的源代码块添加相应类型的元信息。
优选地,该动态网页生成装置还包括HTTP请求解析器,用于解析HTTP请求,以确定HTTP请求中是否包含提取网页中的数据的请求;以及HTTP响应生成器,如果HTTP请求为请求用于浏览器的网页,则生成没有添加所述元信息的HTTP响应,而如果HTTP请求中包含提取网页中的数据的请求,则生成添加有所述元信息的HTTP响应。
根据本发明的优选实施例,元信息包括用于表示网页布局的网页布局元信息、用于表示源代码的编程结构的结构流元信息、以及用于表示程序中的编程对象的程序对象元信息中的至少一种。
根据本发明的再一个方面,提供一种从动态网页中提取结构化数据的方法,包括:接收添加有元信息的HTTP响应;根据HTTP响应中的元信息对网页内容进行处理,其中所述处理包括以下处理中的一种或多种:根据HTTP响应中的网页布局元信息将网页内容划分成多个片段并将噪声片段去除;根据HTTP响应中的结构流元信息检测网页内容中包含的有用信息的重复模式,以便提取所述有用信息;以及根据HTTP响应中的程序对象元信息对网页内容进行解析并提取最小语义单位的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810093493.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:圆环形载面旋振流化床干燥器
- 下一篇:带有磁敏开关的冰箱