[发明专利]识别网页节点类型的方法和装置无效
申请号: | 201010254598.9 | 申请日: | 2010-08-13 |
公开(公告)号: | CN102375829A | 公开(公告)日: | 2012-03-14 |
发明(设计)人: | 付雷;夏迎炬;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 网页 节点 类型 方法 装置 | ||
技术领域
本申请总体上涉及网页的处理,尤其涉及识别网页节点类型的方法和装置
背景技术
当前,互联网已经成为我们一个重要的信息源,网页作为互联网信息的重要载体,承载着不计其数的有用信息,这些信息的时效性强、领域广泛,是众多研究不可多得的基础资源。如自然语言处理的众多研究都依赖于对大量数据的分析,像机器翻译、文本聚类、文本分类等。然而,要从网页上准确地获得这些信息却不是那么容易,因为网页上的信息镶嵌在HTML的复杂结构中,同时网页中还包含有众多的噪音信息,如导航栏、广告、各种复杂的嵌入结构等等,从这些噪音信息中准确地发现网页的主体内容成为一个急需解决的问题。另外,网页的内容提取还是众多网络相关应用的重要基础,如网页检索、网页自动摘要、网页分类等。为此,高质量的自动网页内容提取越来越为研究人员所重视。
目前,针对网页内容提取的研究主要有两类方法,一类是通过写规则或模板的方法来进行网页内容提取,这类方法中又分为两种,一种是通过设计的语言人工写规则,一种是通过一些网页样例来自动学习模板或规则。这类方法的一个主要的缺点就是对网页的页面结构要求比较严格,针对某一网页或某一类型的网页书写或学习到的模板只适用于特定网页,如果网页结构稍有改变就会失败。而且人工书写规则或模板费时费力。另一类方法是基于网页的HTML DOM(文档对象模型)树结构的一些方法,这类方法中或对DOM树的每个节点定义启发式规则来提取出文本节点,或通过DOM树自动来学习规则。这类方法的缺点在于对网页内容中链接比较多的情况下,常常发生主体内容中部分句子缺失的情况。而且,自动学习到的规则在实际应用中匹配失败的情况也经常发生。另外,上述两类方法一个共同的不足之处在于,只是把他们认为是内容的部分提取出来一并输出给用户,并不能细致的区分出提取出来的文本中各部分的类别,例如哪部分是标题、作者、时间、主体内容等,而这些类别信息对于一些引用来说有着重要的指导作用。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本申请的实施方式,将网页转换为网页节点的序列,并利用适于序列化对象的分类器对所述序列中的网页节点进行分类,从而获得网页节点的候选类型。从而能够识别网页节点的类型,有助于网页内容的抽取。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1为能够用于实现本发明的各实施例的计算设备的例子的示意图;
图2为根据本发明一种实施方式的识别网页节点类型的方法的流程图;
图3为根据本发明另一种实施方式的识别网页节点类型的方法的流程图;
图4为图3中去除噪声节点的步骤的一种具体实施方式的流程图;
图5到图8为根据本发明的各种实施方式的识别网页节点类型的装置的示意框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
首先看图1,图示了能够用于实现本发明的各种实施方式包括识别网页节点类型的方法和装置的计算设备100的例子的结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010254598.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冲扣钳
- 下一篇:用于胰组织再生的方法