[发明专利]一种基于网页分类信息的对象分类方法和系统有效

申请号：	201110040468.X	申请日：	2011-02-18
公开（公告）号：	CN102646095A	公开（公告）日：	2012-08-22
发明（设计）人：	谢宣松;姜珊珊;孙军;郑继川;赵利军	申请（专利权）人：	株式会社理光
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市柳沈律师事务所 11105	代理人：	史新宏
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网页分类信息对象方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请一般涉及与信息处理和信息抽取相关的技术，更具体地，涉及利用基于因特网上的网页分类信息的对象分类方法和系统。

背景技术

在现有技术中，存在如下一些相关的技术：

1、从网站中抽取层次(Hierarchy extraction from the websites，G06F001700，20091231，NEC(CHINA)CO.，LTD.)

现有的从网站中抽取层次的技术中提供了一种构建对象层次的方法和系统，该方法包括：从一个网站中获取一系列网页，对这些网页进行inter-page(页面间)分析来抽取这些网页的层次；进行intra-page(页面内)分析来标识网页内的语义区块，并且得到所有网页的语义区块层次；然后根据网页的层次，来融合这些语义块的层次，以便于生成相应的分层。

分析：

首先，该技术将一个网页映射成一个对象(inter-)；因为网页的树结构而使对象具有层次结构；然后使用相似的网页(intra-)来改善此对象的层次；该方法基于全页面映射来得到对象的分类信息，与本申请的方法有根本的不同。

2、TaxaMiner：一个自动分类自举的实验框架(An ExperimentationFramework for Automated Taxonomy Bootstrapping，V Kashyap，...ClinicalInformation R&D，Partners HealthCare System)

该现有技术的思路包括：(a)文档簇层次的生成；(b)从这些簇层次中抽取主题分层；(c)对主题层次中的节点进行标注。他们采纳了一系列聚类和自然语言处理相关的技术，以及从实验框架中得到的标识参数；同时提供一种度量来测试主题簇的质量，并且评估不同的参数对质量矩阵带来的影响。

分析：

该方法是从纯文本中得到分类信息，方法和数据源与本申请都明显不同。

3、一个基于分类的从数据密集型网站中自动抽取数据的爬虫(ATaxonomy Based Crawler for Automated Data Extraction from Data-IntensiveWebsites，H.Davulcu，...Department of Computer Science and Engineering，Arizona state Univ.)

这种现有技术采用启发式规则来发现如下结构中的结构化规律：分类块、产品列表以及单产品页面；这些规律被用于将在线目录转换成分类产品数据库，这种转换不需要人为参与以及额外的封装维护负担。

上述现有技术从一个大型的网站首页获取分类信息入口，这些分类信息是一个很大的集合但并不具备精细的层次信息；同时，该文档使用的方式本身也与本申请有明显的不同。

如我们对上述每篇参考文献的分析，我们在权利说明中提到的技术与它们有明显的区别。

此外，本申请采用综合因素来抽取网页中的具有层次的分类信息，这些因素有：节点序列模式匹配和节点位置等的计算方法，这些能够从单网页中得到更精确和有用的分类信息。

基于图的方法来集成多个从不同网页而来的分类信息，并且得到单对象的确切分类信息，用于构建对象库；对异构的网页来说，更具合理性。

现有许多包括分类信息的网页，如产品声明等，这些分类信息是按人类知识来组织的，因此对词典、本体以及对象数据库的构建非常有用。当前的分类信息都是人(专家)来搜集并整理的，这样非常耗时耗力。

正因为现有的网页分类信息包含了人的知识，因此提供了精确发现对象之间关系的可能的途径，如产品之间的关系。但是网页包含了许多噪声，以及不同网页是异构的，即使是对同一种对象来说，不同网站的表现形式也是多样的。如何抽取这些分类信息并集成它们是本发明的目的。

发明内容

本发明的另外方面和优点部分将在后面的描述中阐述，还有部分可从描述中明显地看出，或者可以在本发明的实践中得到。

本发明的应用领域通常包括：构建对象库，并根据分类信息来分类和索引文档。

本发明提供了一种新的通过层次链和对象标识符来自动对网页中对象进行分类的方法。现在这些分类信息被用来分类对象，更进一步，来为对象库构建分类树。

为了达到以上目的，我们采用了一种具有6个步骤的创新的方法来从网页中获取分类信息。