[发明专利]从多个网页中抽取对象和网页的方法和设备有效
申请号: | 201110115052.X | 申请日: | 2011-05-05 |
公开(公告)号: | CN102768661A | 公开(公告)日: | 2012-11-07 |
发明(设计)人: | 孙军;谢宣松;姜珊珊;赵利军;郑继川 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 抽取 对象 方法 设备 | ||
技术领域
本发明总体地涉及信息处理和信息抽取领域,更具体地涉及从多个网页中抽取信息和相关网页。
背景技术
目前,存在大量的电子文档,例如,互联网上的各种描述产品的文章等。对各种文档进行信息处理、分析、统计等,正成为业界研究和开发的热点。
对于互联网上的数量众多的含有对象属性值信息的网页、诸如产品参数网页,自动从网页中抽取对象属性值信息可以用来更好地构建此类网页的索引,从而有助于搜索,或者可以利用抽取结果来做评论挖掘和趋势分析。关于这个任务已经存在一些已有工作。
题目为“Hierarchical conditional random fields for web extraction”的美国专利US7720830(B2)提出一种为一个信息页面打上对象信息标签的方法,其在把网页分成块之后,层级条件随机场被用来给对象元素打标签。但是,该方法假设对象类的属性名集合已知而无法同时抽取属性名和属性值,并且它使用的是监督的方法,所以需要训练数据,相当地耗费时间和人力。
另外,在Katharina Probst,Rayid Ghani,Marko Krema,Andrew E.Fano,Yan Liu的“IJCAI2007-Semi-Supervised Learning of Attribute-Value Pairs fromProduct Descriptions”(Proceedings of the 20th International Joint Conference onArtificial Intelligence,2007,PP 2838-2843)中,提出了一种从产品描述中抽取属性值对的方法,其使用半监督学习算法来抽取属性名和属性值,然后通过依赖解析器(dependency parser)和共现的分数来得到属性值对。但是,此方法不使用HTML的tag(标签)信息和视觉信息,但实际上这样的信息可以为数据抽取提供有力的帮助。此外,此方法仍需要训练数据。
可见,已有工作在一些场景下不适用,并且已有的工作一般把网页选择和属性值抽取作为单独的任务,而不能同时抽取对象属性值和相关网页。因而,存在对于一种能够更精确地从网页中提取对象和网页,而无需训练数据的方法和设备。
发明内容
为此,提出本发明。
本发明的方法和设备可以利用对象属性值之间以及对象属性值与网页之间的依赖关系来提升性能。可以自动地去除噪声(无用的属性值)和无用网页。另外,本发明的抽取过程可以很自然地利用网页权威度信息。其次,描述相似对象的网页可以相互增强对方的属性值抽取结果。我们的方法利用了这一点,以达到更好的抽取效果。
本发明的目的是从多个网页中抽取对象属性值信息。这些网页包含某些对象的参数规格数据。本发明提出的方法能够同时进行网页的选择和对象信息的抽取。
根据本发明的一个方面,提供了一种从多个网页中抽取对象和网页的方法,包含以下步骤:识别多个网页的候选属性值对;对于每个网页,针对该网页内的候选属性值对构造页内属性值图;对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;对于多个网页构造网页图;计算每个候选属性值对和每个网页的分数;以及选择对象和网页。
其中,所述计算每个候选属性值对和每个网页的分数的步骤包括:基于所述页内属性值图、页间属性值图和网页图,计算每个候选属性值对的分数;以及基于所述网页图和网页内的属性值对,计算每个网页的分数。
其中,页内属性值图具有节点和边,每个节点对应于同一个网页内的一个候选属性值对,并且基于DOM树和式样信息来计算边权重。
其中,页间属性值图具有节点和边,每个节点对应于所述多个网页内的一个候选属性值对,并且基于两个节点的内容信息的相似度来计算边权重。
其中,网页图具有节点和边,每个节点对应于所述多个网页中的一个网页,并且基于网页包含的属性值信息来计算边权重。
其中,以迭代的方式来传播每个候选属性值的分数和每个网页的分数,对于每一节点:基于其邻居节点的分数以及该节点与邻居节点之间的边权重来传播分数;并且当该节点的分数稳定或达到最大迭代次数时终止传播,并且此时的分数为节点的最终分数,其中,在每次分数传播过程中,每个节点的新分数保留部分原有分数。
其中,每个候选属性值对具有初始信度分数,且每个网页具有初始信度分数,在所述识别多个网页的候选属性值对的步骤中计算每个候选属性值对的初始信度分数,且每个网页的初始信度分数为其权威度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110115052.X/2.html,转载请声明来源钻瓜专利网。