[发明专利]用于建立对象层次结构的方法和系统有效
申请号: | 200810111482.2 | 申请日: | 2008-06-26 |
公开(公告)号: | CN101615178A | 公开(公告)日: | 2009-12-30 |
发明(设计)人: | 赵彧;李建强 | 申请(专利权)人: | 日电(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 | 代理人: | 柳春雷 |
地址: | 100007北京市东城区东四十*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 建立 对象 层次 结构 方法 系统 | ||
1.一种用于建立层次结构的方法,该方法包括:
获取来自网站的一组网页;
对所获取的网页执行页间分析,以提取出网页间的层次结构;
对所获取的每一网页执行页内分析,以划分该网页内的语义块并提取 出针对所获取的网页的语义块间的层次结构;以及
融合所述语义块间的层次结构与所述网页间的层次结构以生成协调后 的层次结构;
其中,所述方法还包括:
将所述协调后的层次结构上的各个节点映射成相应对象,以得到协调 后的对象层次结构;
或
在所述页间分析之后,将提取出的所述网页间的层次结构上的各个节 点映射成相应对象以得到网页所表示的对象间的层次结构;在所述页内分 析之后,将提取出的所述语义块间的层次结构上的各个节点映射成相应对 象以得到语义块所表示的对象间的层次结构;其中所述融合步骤融合所述 网页所表示的对象间的层次结构和所述语义块所表示的对象间的层次结 构,以得到协调后的对象层次结构。
2.如权利要求1所述的方法,其中所述融合步骤包括:
对所述网页间的层次结构和所述语义块间的层次结构互相校准以解决 两者之间的冲突;以及
根据所述语义块间的层次结构将语义块作为虚拟网页补充到所述网页 间的层次结构中以生成所述协调后的层次结构。
3.如权利要求1所述的方法,还包括:
输入用户感兴趣的对象类型;以及
从所获取的网页中过滤出具有所输入的对象类型的对象相关网页;
其中,所述页间分析和所述页内分析都是针对过滤出的所述对象相关 网页执行的。
4.如权利要求3所述的方法,其中,所述过滤步骤包括:
从获取的网页之间的链接中识别分层链接;
参考识别出的所述分层链接生成每个所述网页的分层导航路径;以及
通过检查生成的所述分层导航路径来识别出所述对象相关网页。
5.如权利要求4所述的方法,还包括:
收集沿所生成的分层导航路径上的网页的文本内容,并且
所述检查步骤包括:
根据所述输入的对象类型查询所述收集的分层导航路径上的网页的文 本内容,以识别出所述对象相关网页。
6.如权利要求1所述的方法,其中,所述执行页内分析的步骤包括:
对每个所述网页执行网页分割以生成语义块;
提取出所获取的网页的语义块之间的层次结构;以及
生成每个所述语义块的标题。
7.如权利要求3所述的方法,其中,所述执行页内分析的步骤包括:
从所获取的网页中选择对象入口网页,所述对象入口网页包含指向不 同的所述对象相关网页的超链接束;
对选择的所述对象入口网页执行网页分割以生成语义块;
提取出语义块之间的层次结构;以及
生成每个所述语义块的标题。
8.如权利要求6或7所述的方法,其中在所述生成语义块的标题的步 骤中,如果所述标题的文本未被包括在所述语义块的文字内容中,则通过 使用所述语义块所在网页的页内上下文和页间上下文来生成所述标题。
9.如权利要求1所述的方法,其中所述映射步骤包括:
将节点的标题映射成相应对象的标题;并且
将节点之间的层次关系映射成对象之间的层次关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810111482.2/1.html,转载请声明来源钻瓜专利网。