[发明专利]一种网页主题确定的方法在审

专利信息
申请号: 201210491396.5 申请日: 2012-11-27
公开(公告)号: CN103838792A 公开(公告)日: 2014-06-04
发明(设计)人: 刘立堂;李勇 申请(专利权)人: 大连灵动科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 曲永祚
地址: 116023 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种网页主题确定的方法,包括如下步骤:确定自定义主题和获取网页主题的链接;所述获取网页主题的链接包括链接上下文的提取和局部扩散提取链接;所述局部扩散提取链接包括主题型语义块中链接上下文提取、目录型和图片型语义块中链接上下文提取和网页链接提取;本发明首先给出了基于布局标签的网页HTML标签文档划分方法,接着提出了块的概念,并对划分后的语义块进行位置编号,构造出带有编号的布局标签DOM树,最后基于网页块的位置进行主题的确定和主题链接的提取;使用户能迅速获取主题信息,扩展了Web的可用性,有助于解决信息抽取等一系列问题。
搜索关键词: 一种 网页 主题 确定 方法
【主权项】:
一种网页主题确定的方法,其特征在于包括如下步骤:A、确定自定义主题;A1、定制将被抽取的主题:列出网页内的所有主题和每一主题块内的链接,选择某一个或多个主题并归为已定义名称的主题;A2、当进行主题信息抽取时,首先分析网页结构,再找出所有的主题块,然后根据用户定制的主题块位置,抽取该主题块的所有链接作为主题信息抽取的入口地址,最后根据已定义的主题名称将信息分类存储;B、获取网页主题的链接:通过获取链接锚文本文档和该链接的上下文文档作为链接的描述文本;B1、链接上下文的提取;链接上下文提取算法基于网页的DOM树模型,对于不同类型的语义块中链接上下文的提取采用局部扩散算法;对于目录型语义块,根据非链接文字是对链接主题的说明将目录型语义块中所有的非链接文字作为每个链接的上下文,对主题型的链接上下文的提取,采用提取关键位置的内容作为链接上下文;B2、局部扩散提取链接;基于网页布局划分DOM树,对不同类型的语义块采用其对应的上下文提取策略;B21、主题型语义块中链接上下文提取;根据中文文本的语义是用符号隔开即其中逗号和句号之间的文本表示一个相对完整的语义,所以将链接锚文本前面一句和后面一句文本作为链接的上下文;B22、目录型和图片型语义块中链接上下文提取;将链接锚标签所在的目录型语义块或图片型语义块中非链接文字作为该链接的上下文,同时将语义块的划分节点定义为聚合节点;B23、网页链接提取;根据具有相同主题的链接放置在同一个布局标签内或者在其上下文的局部内,则在分析网页时按照布局标签将网页建立成一个布局标签树,当进行标签树建立时按照网页内的块进行划分,划分后的树是一棵由各个节点为块且具有标号的块组成,然后采用后序遍历标签树方式来发现主题块以及主题相关链接,选取链接数阈值为3即具有3个主题相关链接以上的块为主题块,其中选取步骤如下:(1)输入主题型网页,建立布局标签树,初始化主题块队列,其中初始化用于存放主题块序号以及该主题下的链接;(2)后序遍历下一个块,若为空则转到(5);(3)判断该主题块内的链接数,如果小于3,转到(2);(4)将主题块的位置序号以及主题下的相关链接插入;(5)结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210491396.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top