[发明专利]从多个网页中抽取对象和网页的方法和设备有效
申请号: | 201110115052.X | 申请日: | 2011-05-05 |
公开(公告)号: | CN102768661A | 公开(公告)日: | 2012-11-07 |
发明(设计)人: | 孙军;谢宣松;姜珊珊;赵利军;郑继川 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 黄小临 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 抽取 对象 方法 设备 | ||
1.一种从多个网页中抽取对象和网页的方法,包含以下步骤:
识别多个网页的候选属性值对;
对于每个网页,针对该网页内的候选属性值对构造页内属性值图;
对于每个网页,针对其他网页内的候选属性值对构造页间属性值图;
对于多个网页构造网页图;
计算每个候选属性值对和每个网页的分数;以及
选择对象和网页。
2.根据权利要求1所述的方法,其中,所述计算每个候选属性值对和每个网页的分数的步骤包括:
基于所述页内属性值图、页间属性值图和网页图,计算每个候选属性值对的分数;以及
基于所述网页图和网页内的属性值对,计算每个网页的分数。
3.根据权利要求1所述的方法,其中,页内属性值图具有节点和边,每个节点对应于同一个网页内的一个候选属性值对,并且基于DOM树和式样信息来计算边权重。
4.根据权利要求1所述的方法,其中,页间属性值图具有节点和边,每个节点对应于所述多个网页内的一个候选属性值对,并且基于两个节点的内容信息的相似度来计算边权重。
5.根据权利要求1所述的方法,其中,网页图具有节点和边,每个节点对应于所述多个网页中的一个网页,并且基于网页包含的属性值信息来计算边权重。
6.根据权利要求2所述的方法,其中,以迭代的方式来传播每个候选属性值的分数和每个网页的分数,对于每一节点:
基于其邻居节点的分数以及该节点与邻居节点之间的边权重来传播分数;并且
当该节点的分数稳定或达到最大迭代次数时终止传播,并且此时的分数为节点的最终分数,
其中,在每次分数传播过程中,每个节点的新分数保留部分原有分数。
7.根据权利要求6所述的方法,其中,每个候选属性值对具有初始信度分数,且每个网页具有初始信度分数,在所述识别多个网页的候选属性值对的步骤中计算每个候选属性值对的初始信度分数,且每个网页的初始信度分数为其权威度。
8.根据权利要求2所述的方法,其中,所述选择对象和网页的步骤包括:选择分数最大的预定数目的属性值对和网页作为抽取结果。
9.根据权利要求7所述的方法,其中,每个候选属性值的最终分数至少基于该候选属性值对的初始信度分数、在同一个网页上的相关的候选属性值对、在其他网页上的相关的候选属性值对以及包含此候选属性值对的网页,并且每个网页的最终分数至少基于该网页的初始信度分数、与该网页相关的网页以及该网页所包含的候选属性值对。
10.一种从多个网页中抽取对象和网页的设备,包含:
候选属性值识别模块,用于识别多个网页的候选属性值对;
页内属性值图构造模块,用于对于每个网页,针对该网页内的候选属性值对构造页内属性值图;
页间属性值图构造模块,用于针对其他网页内的候选属性值对构造页间属性值图;
网页图构造模块,用于对于多个网页构造网页图;
分数计算模块,用于计算每个候选属性值对和每个网页的分数;以及
抽取模块,用于选择对象和网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110115052.X/1.html,转载请声明来源钻瓜专利网。