[发明专利]基于二元切词和支持向量机的商品自动分类方法有效
申请号: | 201310201322.8 | 申请日: | 2013-05-27 |
公开(公告)号: | CN103294798A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | 许大伦;毛颖;张立群 | 申请(专利权)人: | 北京尚友通达信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 二元 支持 向量 商品 自动 分类 方法 | ||
技术领域
本发明涉及数据挖掘领域,具体地说,是涉及一种基于二元切词和支持向量机(Support Vector Machine,SVM,一种自动学习型分类算法)的商品自动分类方法。
背景技术
数据挖掘(Data mining),一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。分类,则是数据挖掘中的一个重要环节。
随着电子信息技术的飞速发展,数据挖掘已经深入到各个领域,尤其对于电子商务领域,高效的商品自动分类方法对管理电子商务中海量的商品信息至关重要。目前,有多种商品自动分类方法,如:基于逻辑规则的决策树方法、基于统计关联的朴素贝叶斯或贝叶斯网络方法、基于感知器的神经网络方法、基于实例学习的k近邻方法以及基于向量空间的支持向量机方法等,据文献报道,上述常用方法的分类准确率在80%左右。
在现有技术中,由于支持向量机方法具有分类速度快、结果准确度高的优点而被广泛运用。
但是,该方法在实际应用中的效果主要取决于特征空间的构造,如果特征空间太小以至数据线性不可分,就必须采用非线性核函数,这会导致训练时间长,效果不理想等问题。
同时,商品的中文标题包含了多方面的特征信息(如厂家品牌、商品名称、规格型号以及价格),它们与商品分类的相关性大小不同,理论上作区别处理会有利于提高商品分类的准确率。但由于信息量巨大,要构建和维护这样一个产品特征信息库的成本很高,计算量巨大,实际操作性差。
因此,如何解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想,便成为亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于二元切词和支持向量机的商品自动分类方法,以解决现有技术中难以构建产品特征信息库以及由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。
为解决上述技术问题,本发明提供了一种基于二元切词和支持向量机的商品自动分类方法,其特征在于,包括:
对于训练集合中的所有商品标题进行二元切词处理构造特征词库;
构造商品分类集合,同时根据所述特征词库将商品标题表示为特定向量,由该特定向量和商品所属分类生成训练数据,针对该训练数据采用序贯对偶方法进行参数优化得到最佳分类向量;
计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,挑选最大内积结果对应的分类作为该商品所属的分类。
优选地,其中,所述对商品标题进行二元切词处理构造特征词库,进一步为:对训练集合中的所有商品标题进行二元切词后统计词频,挑选频率较高的词构造特征词库。
优选地,其中,所述训练集合,进一步包含某一电子商务网站中所有的商品标题;所述特征词库,进一步包含经过二元切词处理后所得到的反映商品信息的特征词。
优选地,其中,所述根据所述特征词库将商品标题表示为特定向量,进一步为:将训练集中任一商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量。
优选地,其中,所述计算所述最佳分类向量与待分类商品的标题所表示的特定向量的内积,进一步为:将待分类商品标题进行二元切词后所得到的特征词的次数组合表示为n维向量,计算该n维向量与所述最佳分类向量的内积。
与现有技术相比,本发明所述的一种基于二元切词和支持向量机的商品自动分类方法,达到了如下效果:
1)本发明对商品标题进行二元切词处理,极大提升了特征信息库构建的便易性。
2)本发明运用特征词将商品标题表示为特征空间中的特定向量,极大提升了商品的可区分性,从而有效解决了由于特征空间构造而导致商品自动分类方法训练时间长且效果不理想的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的基于二元切词和支持向量机的商品自动分类方法的流程示意框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京尚友通达信息技术有限公司,未经北京尚友通达信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310201322.8/2.html,转载请声明来源钻瓜专利网。