[发明专利]信息采集方法及系统无效
申请号: | 200810126496.1 | 申请日: | 2008-07-04 |
公开(公告)号: | CN101620608A | 公开(公告)日: | 2010-01-06 |
发明(设计)人: | 蓝培瑜 | 申请(专利权)人: | 全国组织机构代码管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 李 玲 |
地址: | 100029北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 采集 方法 系统 | ||
1、一种信息采集方法,包括以下步骤:
根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;
对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;
修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签,并对修补后的网页内容进行文本信息提取;
对提取的文本信息进行自动分类,然后对分类后的文本信息进行分词处理,并提取所述文本信息的摘要;
将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。
2、根据权利要求1所述的信息采集方法,其中还包括预先设置采集任务模板的操作,具体为:
在超文本标记语言页面标签树结构的各个节点中保存用户输入的采集任务的要求。
3、根据权利要求1所述的信息采集方法,其中所述对所述一个或多个网页链接地址执行去重操作,并将去重后得到结果存入地址列表数据文件的操作具体为:
将所述一个或多个网页链接地址进行哈希变换,生成与所述一个或多个网页链接地址对应的标识码列表,对所述标识码列表进行去重操作,将去重后的标识码列表存入地址列表数据文件。
4、根据权利要求1所述的信息采集方法,其中修补超文本标记语言标签的操作具体为:
根据预先构造的超文本标记语言解析器,对所述地址列表数据文件所对应的内容信息的超文本标记语言标签进行修补。
5、根据权利要求4所述的信息采集方法,其中对修补后的网页内容进行文本信息提取的操作具体为:
对修补后的网页内容中的文本格式数据和/或能够提取出文本信息的二进制格式数据进行文本信息提取。
6、根据权利要求5所述的信息采集方法,其中从二进制格式数据中提取文本信息的操作具体为:
根据所述二进制格式数据的文件格式选择对应的提取插件对文本信息进行提取。
7、根据权利要求4所述的信息采集方法,其中当对修补后的网页内容进行文本信息提取的操作失败时,重新对超文本标记语言解析器进行构造,并根据重新构造的超文本标记语言解析器对网页内容进行修补。
8、根据权利要求1所述的信息采集方法,其中对提取的文本信息进行自动分类的操作具体为:
通过百分比阈值确定法确定分类阈值,并根据所述分类阈值对提取的文本信息进行自动分类。
9、根据权利要求1所述的信息采集方法,其中在对分类后的文本信息进行分词处理之前,还包括语种识别的操作,并根据识别出的语种选择分词方式。
10、根据权利要求9所述的信息采集方法,其中所述分词处理的操作具体为:
根据预设的分词词典对所述分类后的文本信息进行正向最大匹配分词及逆向最大匹配分词;
判断所述正向最大匹配分词及逆向最大匹配分词得到的词条是否匹配,如果匹配,则确定正向最大匹配分词或逆向最大匹配分词得到的词条为分词结果,否则确定正向最大匹配分词和逆向最大匹配分词得到的权重较大的词条为分词结果。
11、根据权利要求1所述的信息采集方法,其中所述提取文本信息的摘要的操作具体为:
提取分词处理后得到的词条的类别特征,并计算该词条的权重;
根据所述词条的权重计算文本信息中各个句子的权重,并依据所述各个句子中的权重进行排序;
取出权重较大的排序前预设位数的句子作为文摘句,以原文顺序输出文摘句的集合;
对所述文摘句的集合进行平滑方法和缩句处理,得到所述文本信息的摘要。
12、一种信息采集系统,包括:
地址获取模块,用于根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;
地址去重模块,用于对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;
标签修补模块,用于修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签;
文本信息提取模块,用于对修补后的网页内容进行文本信息提取;
自动分类模块,用于对提取的文本信息进行自动分类;
分词处理模块,用于对分类后的文本信息进行分词处理;
摘要提取模块,用于提取所述文本信息的摘要;
结果输出模块,用于将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全国组织机构代码管理中心,未经全国组织机构代码管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810126496.1/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置