[发明专利]可扩展的web数据提取在审

专利信息
申请号: 201480084037.5 申请日: 2014-12-12
公开(公告)号: CN107430600A 公开(公告)日: 2017-12-01
发明(设计)人: 余晓峰;谢俊青 申请(专利权)人: 慧与发展有限责任合伙企业
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京德琦知识产权代理有限公司11018 代理人: 康泉,宋志强
地址: 美国德*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 扩展 web 数据 提取
【说明书】:

背景技术

各种类型的有价值的语义信息被嵌入在web页面中。web数据提取(例如,web页面文本数据分割条和标签、web页面的语义的理解)可以显著地提高用户的浏览和搜索体验。基于规则或者基于模式的解决方案可以使用诸如正则表达式等文本模式匹配来从web页面中的超文本标记语言(HTML)识别小的或特定的结构或记录,或者使用基于模板的方法来识别有限域内的共同片段。这些解决方案主要集中于使用基于规则的模式挖掘方法的页面布局和格式分析,并且依赖于模板,使得它们仅针对由相同模板生成的web页面起作用。进一步,用户向基于规则或基于模式的解决方案提供关于每个规则、模式、模板等的明确信息。

附图说明

以下详细描述参考附图,在附图中:

图1是用于提供可扩展的web数据提取的示例计算装置的框图;

图2是与web服务器通信以便提供可扩展的web数据提取的示例计算装置的框图;

图3是由用于提供可扩展的web数据提取的计算装置执行的示例性法的流程图;并且

图4是从web数据中的数据记录区段的分析产生的示例关系标签的示图。

具体实施方式

如上所详述的,基于规则或基于模式的解决方案可以使用诸如正则表达式等文本模式匹配来从超文本标记语言(HTML)识别小的或特定的结构或记录。这些解决方案可以使用自然语言处理和文本分析来分析HTML中的文本片段之间的关系。然而,因为web页面的数据内容通常是文本碎片,并且没有严格地符合语法,所以通常期望符合语法的语句的传统的自然语言处理(NLP)技术并不直接适用。逻辑上一致的数据块的分割是非平凡的,并且数据块内的文本碎片不解释语法。据此,分割技术通常去除或软化不同文本碎片的边界。更重要的是,大部分的分割技术去除HTML元素的结构格式,诸如二维布局信息和分层组织,这导致性能降低。

本文中的示例描述用于基于具有任意图形结构的统计框架的高效和可扩展的web数据提取的独立于模板的解决方案。这样的解决方案能够将大量的随机变量表示为根据底层图进行因式分解并捕获变量之间的复杂的依赖性的一系列概率分布。例如,在来自诸如等百科全书式的页面的web数据提取中,每个百科全书式的页面具有由诸如“亚伯拉罕·林肯”等主数据记录表示的主要话题或概念。这种独立于模板的解决方案的目标是提取所有感兴趣的数据记录,诸如“亚伯拉罕·林肯”、“2月12日”、“1809”和“共和党”,并且为这些数据记录分配属性标签。在该示例中,属性标签集合可以包括:被分配给每个数据记录的预定义的标签,诸如“人”、“日期”、“年份”、“组织”标签;以及数据记录对之间的关系标签,诸如“出生日期”、“出生年份”和“成员”。是Wikimedia Foundation,Inc.(维基媒体基金会有限公司)的注册商标,其总部设在加州的旧金山。

在一些实例中,定义用于从web页面提取的web数据的数据记录片段的联合势函数,其中联合势函数模拟web数据的数据记录分割和数据记录片段中的成对的数据片段之间的依赖性。在该阶段,从数据记录片段中识别主记录片段和若干相关记录片段,其中多个相关记录片段中的每个与主记录片段相关联。确定每个相关记录片段的相关属性。接下来,将联合势函数应用于主记录片段和每个对应的相关片段,以确定描述主记录片段和对应的相关片段之间的数据关系的关系标签。

现在参考附图,图1是用于提供可扩展的web数据提取的示例计算装置100的框图。计算装置100可以是能够访问诸如图2中的web服务器装置250A、250N等服务器装置的任何计算装置。在图1的实施例中,计算装置100包括处理器110、接口115,以及机器可读存储介质120。

处理器110可以是一个或多个中央处理单元(CPU)、微处理器和/或适用于检索和执行存储在机器可读存储介质120中的指令的其他硬件装置。处理器110可以取出、解码以及执行指令122、124、126、128,以实现提供可扩展的web数据提取。作为检索和执行指令的替代方案或除了检索和执行指令之外,处理器110还可以包括一个或多个电子电路,该一个或多个电子电路包括用于执行指令122、124、126、128中的一个或多个的功能的多个电子组件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧与发展有限责任合伙企业,未经慧与发展有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201480084037.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top