[发明专利]信息抓取方法有效
申请号: | 200910077557.4 | 申请日: | 2009-01-22 |
公开(公告)号: | CN101788988A | 公开(公告)日: | 2010-07-28 |
发明(设计)人: | 蔡亮华;庞然;胡新宇 | 申请(专利权)人: | 蔡亮华 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100035 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 抓取 方法 | ||
技术领域
本发明涉及信息搜索技术,尤其涉及一种信息抓取方法。
背景技术
随着互联网的普及,人们在日常的工作和生活中越来越多地使用信息搜索引擎,从互联网获取所需的各种信息。因此,信息搜索技术在互联网行业中占有着重要的地位。近年来,人们对搜索结果的要求越来越高。
目前,各搜索引擎主要采用网络爬虫来获取与用户搜索主题相关的网页信息。网络爬虫是一个自动提取网页的程序,它根据用户提供的搜索主题,从互联网上下载和获取网页,这些网页信息包括:网络新闻、论坛、博客等网页。网络爬虫可以从一个或若干初始网页的地址开始,获得初始网页上的地址,在下载和获取网页的过程中,不断从当前页面上抽取新的地址放入队列,直到满足系统设定的停止条件时停止搜索。
现有采用网络爬虫的信息抓取方法,主要是在互联网上对网页进行海量的信息抓取,然后通过人为制定的一些规则数据过滤掉与搜索主题无关的信息。而这种规则数据通常是提前制定和输入的,并且不是基于信息的语义含义进行抓取,在瞬息万变的互联网环境下,词或词组的语义常发生较大变化,这将会导致大量对搜索主题有价值的信息被遗漏,或者检索的结果与搜索主题无关,也会致使网络爬虫的工作效率较低,浪费存储空间。
发明内容
本发明的主要目的是提供一种信息抓取方法,用以解决前述现有技术中 对搜索主题有价值的信息被遗漏或爬虫抓取的信息与搜索主题无关,以及爬虫工作效率低,浪费存储空间的问题。
为此,本发明一些方法的实施例包括:
爬虫程序获取与搜索主题相关的网页信息,并对所述网页信息进行分词处理,获得包含若干词和/或词组的分词处理结果信息;
根据预设时间内所述词和/或词组在所述网页信息中出现的频率,对所述词和/或词组进行聚类操作,并获取第一分类数据表;
根据语义库数据对所述第一分类数据表进行语义属性归类,获取第二分类数据表;
在所述第二分类数据表中获取所述词和/或词组的语义属性参数;
根据所述语义库数据在所述第二分类数据表中查询具有新语义属性参数的所述词和/或词组;
将所述词和/或词组与所述第二分类数据表中语义属性参数相同的其他词和/或词组进行相关性分析,获取所述词和/或词组的语义数据,并将所述语义数据添加至所述语义库;
分别基于所述语义库中同一所述语义属性参数对所述词和/或词组进行加权运算,得到所述网页信息的语义属性参数;
若所述网页信息的语义属性参数在预设的语义属性参数范围内,则将所述网页信息保存至抓取结果队列。
因此,本发明实施例提供的信息抓取方法预先设置抓取结果的语义属性参数范围,爬虫程序将经过筛选与搜索主题相关的结果信息保存至抓取结果队列,使抓取所得的结果与搜索主题相关度高,爬虫程序工作效率提高,占用存储空间小。
附图说明
图1为本发明信息抓取方法第一实施例流程图;
图2为本发明信息抓取方法第二实施例流程图;
图3为本发明信息抓取方法第三实施例流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明信息抓取方法第一实施例流程图,如图1所示,包括:
步骤100、爬虫程序获取与搜索主题相关的网页信息,并对网页信息进行分词处理,获得包含若干词的分词处理结果信息;
其中,分词处理结果信息中的若干词为泛指,还可以为由词构成的词组。分词处理的结果举例来说,比如:“北京举办奥运会”这个句子,通过分词 处理以后得到“北京”“举办”“奥运”。分词的方法有字符串匹配法、基于理解的分词方法和基于统计的分词方法等等;采用字符串匹配的分词方法又叫机械分词方法,它是按照一定的策略将待分析的汉字串与一个机器词典中的词条进行匹配,若在机器词典中找到某个字符串,则匹配成功,识别出一个词。分词处理是基于语义库数据进行,语义库数据还包括动词库数据、名词库数据、虚词库数据和助词库数据等等,通过分词处理能够将网页信息中的虚词、助词等与网页主题相关度较小的词去掉,滤除与网页主题无关的信息。
步骤101、分别基于语义库中同一语义属性参数对词进行加权运算,得到网页信息的语义属性参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蔡亮华,未经蔡亮华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910077557.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置