[发明专利]基于网页页面布局提取网页核心内容的系统、方法和程序有效
申请号: | 200410100059.4 | 申请日: | 2004-12-07 |
公开(公告)号: | CN1786947A | 公开(公告)日: | 2006-06-14 |
发明(设计)人: | 马立;苏中;刘世霞;潘越 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/22 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 黄小临;王志森 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供一种提取网页的核心内容的网页核心内容提取系统和方法,该系统接收HTML文档(网页)并从其中提取核心内容,所述系统包括:文本块分析器,用于以HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块,并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出,其中所述有用基本结构为包含网页核心内容的基本结构;以及文本块检查器,用于从文本块分析器依次输出的所述文本块中去除不含网页的核心内容的文本块并输出余下的文本块作为网页核心内容。通过针对每个文本块确定是否含有广告和导航信息,从而能够精确地确定网页中包括的核心内容。本发明还提高了处理效率。 | ||
搜索关键词: | 基于 网页 页面 布局 提取 核心内容 系统 方法 程序 | ||
【主权项】:
1.一种提取网页的核心内容的网页核心内容提取系统,该系统接收HTML文档并从其中提取核心内容,包括:文本块分析器,用于通过HTML标记作为定界符将输入的HTML文档中的每个有用基本结构中的文本片断分段为一个或多个独立的文本块,并将出现在每个有用基本结构中的所有文本块依次连接起来作为输出,其中所述有用基本结构为可能包含网页核心内容的基本结构;以及文本块检查器,用于从文本块分析器输出的所述文本块中去除不含网页的核心内容的文本块并依次输出余下的文本块作为网页核心内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410100059.4/,转载请声明来源钻瓜专利网。
- 上一篇:用于晶体管的保护电路
- 下一篇:含有高级脂肪酸衍生物的组合物以及饮食物