[发明专利]一种基于Storm流计算框架文本索引方法及系统有效
申请号: | 201610221562.8 | 申请日: | 2016-04-11 |
公开(公告)号: | CN105930360B | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 罗磊;蒋勰;张永刚 | 申请(专利权)人: | 云南省国家税务局 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06K9/62 |
代理公司: | 西安知诚思迈知识产权代理事务所(普通合伙) 61237 | 代理人: | 麦春明 |
地址: | 650000 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Storm流计算框架文本索引方法及系统,包括:storm的topology实现,设计Storm实时数据处理框架,完成网络爬虫这个自动网页提取程序;关键词自动抽取;文本分类,根据文本的内容或属性,将文本归到一个或多个类别中。本发明使自身在数据损坏、丢失等情况下将备份数据倒回,实现数据的恢复;提供对系统自身的集中操作维护的功能;界面美观实用,方便和直观的图形用户管理界面;功能扩展满足用户今后系统扩充和扩大使用范围的要求;容错性:当用户输入或误操作导致非法数据产生时,系统具有一定的容错机制。 | ||
搜索关键词: | 一种 基于 storm 计算 框架 文本 索引 方法 系统 | ||
【主权项】:
1.一种基于Storm流计算框架文本索引方法,其特征在于,所述基于Storm流计算框架文本索引方法包括:步骤一,将网页搜索转换成没有终点的数据流,通过网络实时数据处理框架,实时搜索网页和更新网页数据库;Storm集群有两种节点:master节点和worker节点,master节点运行“nimbus”后台程序,负责在集群范围内分发代码、为worker分配任务和故障监测;worker节点运行“Supervisor”后台程序,Supervisor后台程序监听分配给所在机器的工作,基于nimbus后台程序分配给它的事情来决定启动或停止工作者进程;步骤二,关键词自动抽取:读取网页文件,进行分词,根据删除词库,过滤掉其中的应删除词;计算TF即各词语在网页文件中出现的次数,并进行归一化;计算IDF即逆向文件频率;步骤三,文本分类,根据文本的内容或属性,将文本归到一个或多个类别中;所述步骤三进一步包括:准备工作阶段,根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合;输入是所有待分类数据,输出是特征属性和训练样本;分类器训练阶段,生成分类器,计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录;应用阶段,使用分类器对待分类项进行分类,输入是分类器和待分类项,输出是待分类项与类别的映射关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南省国家税务局,未经云南省国家税务局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610221562.8/,转载请声明来源钻瓜专利网。