[发明专利]信息采集方法及系统无效

申请号：	200810126496.1	申请日：	2008-07-04
公开（公告）号：	CN101620608A	公开（公告）日：	2010-01-06
发明（设计）人：	蓝培瑜	申请（专利权）人：	全国组织机构代码管理中心
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	中国国际贸易促进委员会专利商标事务所	代理人：	李玲
地址：	100029北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	信息采集方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及互联网信息处理技术，尤其涉及一种Internet信息定向采集处理的方法及系统。

背景技术

随着Internet的发展和日益普及，经济全球化与科技创新的竞争日益剧烈，很多技术的前沿信息都率先在Internet上公布，全球经济的发展呈现出对Internet中知识的扩散和应用的依赖，这使得Internet信息的数量呈几何级增长，在这个巨大的、异构的信息海洋中，蕴含着具有巨大潜在价值的信息和知识，采集和利用这些信息和知识已经成为国家、企业、个人的迫切需求。

此外，这些Internet信息90％以上为非结构化的信息，如各类电子文档、网页、多媒体内容等，仅有不到10％的信息内容为数字等结构化信息，在管理与利用这些非结构化的信息资源时现有的信息管理方式管理起来比较困难。

为了利用海量的非结构化信息占绝大多数的Internet信息，现有的以搜索引擎为主要产品的快速搜索技术为人们提供了一种查找信息的渠道，而这种快速搜索是建立在Internet信息采集的基础上。

现有的Internet信息采集系统主要是利用网页中存在的链接地址直接获取到页面内容或者二进制文件，在现有的信息采集系统中，由于当前各种先进技术的运用，许多网站的格局千变万化，对于动态生成的网页和利用脚本生成的网页，难以进行采集。另外，由于URL链接地址数量巨大，为了避免浪费系统资源，需要对地址进行去重操作，现有的去重操作均是对地址直接进行去重，由于这些地址会占去很大的存储空间，因此去重效率比较低下。

发明内容

本发明的目的是提出一种信息采集方法及系统，能够对各种网页格式的网页进行内容的提取，来实现网页信息的采集。

为实现上述目的，本发明提供了一种信息采集方法，包括以下步骤：

根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址；

对所述一个或多个网页链接地址执行去重操作，并将去重后得到的结果存入地址列表数据文件；

修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签，并对修补后的网页内容进行文本信息提取；

对提取的文本信息进行自动分类，然后对分类后的文本信息进行分词处理，并提取所述文本信息的摘要；

将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。

进一步的，还包括预先设置采集任务模板的操作，具体为：在超文本标记语言页面标签树结构的各个节点中保存用户输入的采集任务的要求。

进一步的，所述对所述一个或多个网页链接地址执行去重操作，并将去重后得到结果存入地址列表数据文件的操作具体为：将所述一个或多个网页链接地址进行哈希变换，生成与所述一个或多个网页链接地址对应的标识码列表，对所述标识码列表进行去重操作，将去重后的标识码列表存入地址列表数据文件。

进一步的，修补超文本标记语言标签的操作具体为：根据预先构造的超文本标记语言解析器，对所述地址列表数据文件所对应的内容信息的超文本标记语言标签进行修补。

进一步的，对修补后的网页内容进行文本信息提取的操作具体为：对修补后的网页内容中的文本格式数据和/或能够提取出文本信息的二进制格式数据进行文本信息提取。