[发明专利]可扩展的web数据提取在审
申请号: | 201480084037.5 | 申请日: | 2014-12-12 |
公开(公告)号: | CN107430600A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 余晓峰;谢俊青 | 申请(专利权)人: | 慧与发展有限责任合伙企业 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司11018 | 代理人: | 康泉,宋志强 |
地址: | 美国德*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扩展 web 数据 提取 | ||
背景技术
各种类型的有价值的语义信息被嵌入在web页面中。web数据提取(例如,web页面文本数据分割条和标签、web页面的语义的理解)可以显著地提高用户的浏览和搜索体验。基于规则或者基于模式的解决方案可以使用诸如正则表达式等文本模式匹配来从web页面中的超文本标记语言(HTML)识别小的或特定的结构或记录,或者使用基于模板的方法来识别有限域内的共同片段。这些解决方案主要集中于使用基于规则的模式挖掘方法的页面布局和格式分析,并且依赖于模板,使得它们仅针对由相同模板生成的web页面起作用。进一步,用户向基于规则或基于模式的解决方案提供关于每个规则、模式、模板等的明确信息。
附图说明
以下详细描述参考附图,在附图中:
图1是用于提供可扩展的web数据提取的示例计算装置的框图;
图2是与web服务器通信以便提供可扩展的web数据提取的示例计算装置的框图;
图3是由用于提供可扩展的web数据提取的计算装置执行的示例性法的流程图;并且
图4是从web数据中的数据记录区段的分析产生的示例关系标签的示图。
具体实施方式
如上所详述的,基于规则或基于模式的解决方案可以使用诸如正则表达式等文本模式匹配来从超文本标记语言(HTML)识别小的或特定的结构或记录。这些解决方案可以使用自然语言处理和文本分析来分析HTML中的文本片段之间的关系。然而,因为web页面的数据内容通常是文本碎片,并且没有严格地符合语法,所以通常期望符合语法的语句的传统的自然语言处理(NLP)技术并不直接适用。逻辑上一致的数据块的分割是非平凡的,并且数据块内的文本碎片不解释语法。据此,分割技术通常去除或软化不同文本碎片的边界。更重要的是,大部分的分割技术去除HTML元素的结构格式,诸如二维布局信息和分层组织,这导致性能降低。
本文中的示例描述用于基于具有任意图形结构的统计框架的高效和可扩展的web数据提取的独立于模板的解决方案。这样的解决方案能够将大量的随机变量表示为根据底层图进行因式分解并捕获变量之间的复杂的依赖性的一系列概率分布。例如,在来自诸如等百科全书式的页面的web数据提取中,每个百科全书式的页面具有由诸如“亚伯拉罕·林肯”等主数据记录表示的主要话题或概念。这种独立于模板的解决方案的目标是提取所有感兴趣的数据记录,诸如“亚伯拉罕·林肯”、“2月12日”、“1809”和“共和党”,并且为这些数据记录分配属性标签。在该示例中,属性标签集合可以包括:被分配给每个数据记录的预定义的标签,诸如“人”、“日期”、“年份”、“组织”标签;以及数据记录对之间的关系标签,诸如“出生日期”、“出生年份”和“成员”。是Wikimedia Foundation,Inc.(维基媒体基金会有限公司)的注册商标,其总部设在加州的旧金山。
在一些实例中,定义用于从web页面提取的web数据的数据记录片段的联合势函数,其中联合势函数模拟web数据的数据记录分割和数据记录片段中的成对的数据片段之间的依赖性。在该阶段,从数据记录片段中识别主记录片段和若干相关记录片段,其中多个相关记录片段中的每个与主记录片段相关联。确定每个相关记录片段的相关属性。接下来,将联合势函数应用于主记录片段和每个对应的相关片段,以确定描述主记录片段和对应的相关片段之间的数据关系的关系标签。
现在参考附图,图1是用于提供可扩展的web数据提取的示例计算装置100的框图。计算装置100可以是能够访问诸如图2中的web服务器装置250A、250N等服务器装置的任何计算装置。在图1的实施例中,计算装置100包括处理器110、接口115,以及机器可读存储介质120。
处理器110可以是一个或多个中央处理单元(CPU)、微处理器和/或适用于检索和执行存储在机器可读存储介质120中的指令的其他硬件装置。处理器110可以取出、解码以及执行指令122、124、126、128,以实现提供可扩展的web数据提取。作为检索和执行指令的替代方案或除了检索和执行指令之外,处理器110还可以包括一个或多个电子电路,该一个或多个电子电路包括用于执行指令122、124、126、128中的一个或多个的功能的多个电子组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧与发展有限责任合伙企业,未经慧与发展有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480084037.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种纺织机械用卷布筒
- 下一篇:一种新型简易卷管器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置