[发明专利]一种基于网页分类信息的对象分类方法和系统有效

专利信息
申请号: 201110040468.X 申请日: 2011-02-18
公开(公告)号: CN102646095A 公开(公告)日: 2012-08-22
发明(设计)人: 谢宣松;姜珊珊;孙军;郑继川;赵利军 申请(专利权)人: 株式会社理光
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市柳沈律师事务所 11105 代理人: 史新宏
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网页 分类 信息 对象 方法 系统
【权利要求书】:

1.一种基于网页分类信息的对象分类方法,包括以下步骤:

a)将每个单网页的HTML文档对象模型DOM树转换成特定的包含渲染结果的可扩展标记语言XML树;

b)从每个所述XML树中抽取对象的标识符;

c)从每个所述XML树中抽取单层次链;

d)将来自不同单网页的多个单层次链集成为一棵有向树;以及

e)根据单网页的对象标识符和单层次链,从所述有向树得到此对象的分类信息。

2.根据权利要求1所述的方法,进一步包括f):基于所述有向树从更多的网页中得到分类信息,并将之加入到有向树中。

3.根据权利要求1所述的方法,其中步骤a)进一步包括:

从DOM树中移除与第一列表中枚举的节点相同的节点;

删除DOM树中的其他节点属性,只将超链接HREF属性保留到输出的XML树中;

如果一个节点没有值,而且只有一个拥有文本值的孩子节点,那么,所述孩子节点的文本值会被看成该节点的值,同时从XML树中移除所述孩子节点;以及

通过渲染得到XML树中节点的可视信息,并将节点的可视信息作为节点的属性保留在输出XML树中。

4.根据权利要求1所述的方法,其中步骤b)进一步包括:

根据第一规则过滤掉不可能的节点;

根据可视信息计算每个节点的可视化分值,根据特定的正规表达式与标题相似度计算每个节点的值分值,并且根据标签因素计算每个节点的标签分值;

合并可视化分值、值分值、和标签分值,并得到排名前n的节点作为候选节点;

计算每个候选节点的频率分值,并选择频率分值排在前3的节点作为标识符候选节点;和

移除与第二列表中列举的值相同的节点值,得到分值排名第一的节点作为对象标识符。

5.根据权利要求4所述的方法,其中第一规则包括:

节点的值长度大于第一阈值并小于第二阈值,否则过滤掉该节点,所述第一阈值和第二阈值为经验设置值;

节点的名字如果在停用标签集合中,则过滤掉该节点。

6.根据权利要求4所述的方法,其中可视化分值的计算进一步包括:

通过二维高斯方法计算节点的位置分值;

根据字体信息计算节点的字体分值;

通过合并位置分值和字体分值得到节点的可视化分值。

7.根据权利要求1所述的方法,其中步骤c)进一步包括:

根据节点的自底而上深度、节点的孩子数目以及停用词列表来过滤掉不可能的节点;

根据分类规则将所有剩下的候选节点分成I、II、II和IV四大类;

将每个候选节点的所有孩子看成一个节点序列,并基于节点序列类型进行模式匹配并得到每个候选节点的模式分值;

根据节点字体和绝对位置信息来计算每个候选节点的可视化分值;

对上述步骤得到的模式分值和可视化分值进行合并,并根据结果进行排序,取分值高的和它的孩子为层次链的候选者;以及

根据第三列表移除不必要的层次,并且如果层次链最低层不是对象标识符则将步骤b)得到的对象标识符添加到最低层,从而得到最终的层次链。

8.根据权利要求7所述的方法,分类规则包括:

该节点有值,且节点名为“A”时,将节点分为第I类;

该节点有值,且节点名为“TEXT”时,将节点分为第II类;

该节点有值,且节点名不是上述两种情况时,将节点分为第III类;以及

该节点没有值时,将节点分为第IV类。

9.根据权利要求7所述的方法,其中所述模式匹配进一步包括:

根据节点类型将每个候选节点的孩子节点序列分成头部、中部和尾部三部分,以便中部是一个节点类型不断重复且重复最小单位是两个节点的序列;

根据有头尾部长度、中部长度以及节点类型重复次数,对每个候选节点的孩子节点序列计算模式分值;

根据每个候选节点的孩子的数目计算节点的附加分值,并将该附加分值与上述模式分值合并,得到最终模式分值;以及

过滤掉其最终模式分值小于第三阈值的候选节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110040468.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top