[发明专利]基于信息增益和在线支持向量机的新型分类器及分类方法有效
申请号: | 201110458593.2 | 申请日: | 2011-12-31 |
公开(公告)号: | CN102609714B | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 孙广路;沈跃伍;齐浩亮 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 哈尔滨市伟晨专利代理事务所(普通合伙)23209 | 代理人: | 张伟 |
地址: | 150000 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 增益 在线 支持 向量 新型 分类 方法 | ||
技术领域:
发明涉及一种机器学习及分类技术领域;具体涉及一种基于信息增益和在线支持向量机的新型分类器及分类方法。
背景技术:
随着网络资源的大量增加,网络信息分类方法显得尤其重要。目前常用的分类方法有贝叶斯方法、支持向量机、逻辑回归,决策树、神经网络等。在这些方法中,支持向量机已表现出优于很多其他分类方法。支持向量机(SupportVector Machines,简称SVMs)是在统计学习理论的基础上发展出的一种新的模式识别方法。在解决小样本、非线性、高维识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。虽然统计学习理论和支持向量机方法中尚有很多问题需要进一步研究,但很多学者认为,它们正在成为继模式识别和神经网络之后机器学习领域新的研究热点,并将推动机器学习理论和技术的发展。
支持向量机方法已经在文本分类、互联网信息过滤、手机短信过滤以及网络流分类等方面取得了很好的效果。在这些领域中使用的支持向量机方法大部分都是离线模式(batch model)。离线模式先训练一定量的样本,然后进行分类,在分类过程中不再进行训练,即训练和分类是异步的。然而,目前处理的数据具有数据量大和实时性要求,需要支持向量机是在线模型(online model),即训练和分类同步进行,随着样本的变化,要不停地更新训练模型。
在近几年学术研究中,尤其是在信息过滤领域,在线支持向量分类器受到部分学者的关注。但是,由于在线支持向量机的训练时间复杂度是O(n2m3)(其中,n为训练样本的数量,m为特征向量维度),时间消耗过大,难以应用在实际系统中。针对大规模真实数据系统来说,在线支持向量机分类器需要不停地重复训练,消耗的训练时间将更大。
发明内容:
发明的目的是提供一种解决了基于在线支持向量机的分类器存在的消耗时间过大的问题的基于信息增益和在线支持向量机的新型分类器及分类方法。
上述的目的通过以下的技术方案实现:
一种基于信息增益和在线支持向量机的新型分类器的分类方法,本方法包括如下步骤:第一步对样本信息进行预处理,获得样本的特征;第二步使用信息增益Information Gain方法计算每个特征的信息量,再根据一定的策略选择所需的特征;第三步根据选择的特征建立能够适应在线支持向量机模型的特征向量;第四步利用在线模型训练基于在线支持向量机的新型分类器;第五步利用分类器分类样本。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第一步的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中信息量大小,根据得到每个特征增益信息量来判断是否需要选择该特征。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第二步和第三步建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的第四步在线支持向量机是将支持向量机SVM转化成在线模式,在线模式是分类和训练同时进行;所述的基于在线支持向量机的新型分类器是放宽在线支持向量机的条件。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的新型分类器包括首先对样本信息预处理,获取样本的特征;然后选择样本有效的特征;之后建立特征空间向量;最后利用基于在线支持向量机的分类器对样本进行分类和训练。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的选择样本有效特征是使用信息增益策略来计算每个特征在所出现的样本中的信息量大小,根据得到每个特征信息量来判断是否需要选择该特征;所述的建立特征空间向量是根据选择的样本特征,通过哈希表进行特征映射,将其转为在线支持向量机能够识别的特征空间向量;所述的新型分类器中训练部分样本是最近出现的n个样本,并不是全部样本;所述的新型分类器中放宽了多次迭代寻找最优分类界面的条件。
所述的基于信息增益和在线支持向量机的新型分类器的分类方法,所述的信息增益(Information Gain)方法的计算公式是
一种基于信息增益和在线支持向量机的新型分类器,其组成包括:样本预测器,所述的样本预测器连接样本特征选择器,所述的样本特征选择器连接空间向量生成器,所述的空间向量生成器连接在线支持向量机训练器,所述的样本预测器与所述的样本特征选择器与所述的空间向量生成器与所述的在线支持向量机训练器均连接中央处理器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110458593.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:上衣(太极分级服装-镶边)
- 下一篇:上衣(太极分级服装-黄色)
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置