[发明专利]信息采集方法及系统无效
申请号: | 200810126496.1 | 申请日: | 2008-07-04 |
公开(公告)号: | CN101620608A | 公开(公告)日: | 2010-01-06 |
发明(设计)人: | 蓝培瑜 | 申请(专利权)人: | 全国组织机构代码管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李 玲 |
地址: | 100029北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 采集 方法 系统 | ||
技术领域
本发明涉及互联网信息处理技术,尤其涉及一种Internet信息定向采集处理的方法及系统。
背景技术
随着Internet的发展和日益普及,经济全球化与科技创新的竞争日益剧烈,很多技术的前沿信息都率先在Internet上公布,全球经济的发展呈现出对Internet中知识的扩散和应用的依赖,这使得Internet信息的数量呈几何级增长,在这个巨大的、异构的信息海洋中,蕴含着具有巨大潜在价值的信息和知识,采集和利用这些信息和知识已经成为国家、企业、个人的迫切需求。
此外,这些Internet信息90%以上为非结构化的信息,如各类电子文档、网页、多媒体内容等,仅有不到10%的信息内容为数字等结构化信息,在管理与利用这些非结构化的信息资源时现有的信息管理方式管理起来比较困难。
为了利用海量的非结构化信息占绝大多数的Internet信息,现有的以搜索引擎为主要产品的快速搜索技术为人们提供了一种查找信息的渠道,而这种快速搜索是建立在Internet信息采集的基础上。
现有的Internet信息采集系统主要是利用网页中存在的链接地址直接获取到页面内容或者二进制文件,在现有的信息采集系统中,由于当前各种先进技术的运用,许多网站的格局千变万化,对于动态生成的网页和利用脚本生成的网页,难以进行采集。另外,由于URL链接地址数量巨大,为了避免浪费系统资源,需要对地址进行去重操作,现有的去重操作均是对地址直接进行去重,由于这些地址会占去很大的存储空间,因此去重效率比较低下。
发明内容
本发明的目的是提出一种信息采集方法及系统,能够对各种网页格式的网页进行内容的提取,来实现网页信息的采集。
为实现上述目的,本发明提供了一种信息采集方法,包括以下步骤:
根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;
对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;
修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签,并对修补后的网页内容进行文本信息提取;
对提取的文本信息进行自动分类,然后对分类后的文本信息进行分词处理,并提取所述文本信息的摘要;
将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。
进一步的,还包括预先设置采集任务模板的操作,具体为:在超文本标记语言页面标签树结构的各个节点中保存用户输入的采集任务的要求。
进一步的,所述对所述一个或多个网页链接地址执行去重操作,并将去重后得到结果存入地址列表数据文件的操作具体为:将所述一个或多个网页链接地址进行哈希变换,生成与所述一个或多个网页链接地址对应的标识码列表,对所述标识码列表进行去重操作,将去重后的标识码列表存入地址列表数据文件。
进一步的,修补超文本标记语言标签的操作具体为:根据预先构造的超文本标记语言解析器,对所述地址列表数据文件所对应的内容信息的超文本标记语言标签进行修补。
进一步的,对修补后的网页内容进行文本信息提取的操作具体为:对修补后的网页内容中的文本格式数据和/或能够提取出文本信息的二进制格式数据进行文本信息提取。
进一步的,从二进制格式数据中提取文本信息的操作具体为:根据所述二进制格式数据的文件格式选择对应的提取插件对文本信息进行提取。
进一步的,当对修补后的网页内容进行文本信息提取的操作失败时,重新对超文本标记语言解析器进行构造,并根据重新构造的超文本标记语言解析器对网页内容进行修补。
进一步的,对提取的文本信息进行自动分类的操作具体为:通过百分比阈值确定法确定分类阈值,并根据所述分类阈值对提取的文本信息进行自动分类。
进一步的,在对分类后的文本信息进行分词处理之前,还包括语种识别的操作,并根据识别出的语种选择分词方式。
进一步的,所述分词处理的操作具体为:
根据预设的分词词典对所述分类后的文本信息进行正向最大匹配分词及逆向最大匹配分词;
判断所述正向最大匹配分词及逆向最大匹配分词得到的词条是否匹配,如果匹配,则确定正向最大匹配分词或逆向最大匹配分词得到的词条为分词结果,否则确定正向最大匹配分词和逆向最大匹配分词得到的权重较大的词条为分词结果。
进一步的,所述提取文本信息的摘要的操作具体为:
提取分词处理后得到的词条的类别特征,并计算该词条的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全国组织机构代码管理中心,未经全国组织机构代码管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810126496.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置