[发明专利]用于文本分类的方法有效
申请号: | 201610457431.X | 申请日: | 2016-06-22 |
公开(公告)号: | CN106095996B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 李甫 | 申请(专利权)人: | 量子云未来(北京)信息科技有限公司;无锡量子云数字新媒体科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京天达知识产权代理事务所(普通合伙) 11386 | 代理人: | 彭霜;张春 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种用于文本分类的方法,所述方法包括:获取预先标注好类别的文本集合作为训练样本,对训练样本中的文本进行预处理,得到训练用特征词集合;提取特征词,获得特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;利用特征向量集训练SVM分类器;对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别。 | ||
搜索关键词: | 用于 文本 分类 方法 | ||
【主权项】:
一种用于文本分类的方法,其特征在于,包括以下步骤:步骤1.获取预先标注好类别的文本集合作为训练样本,该训练样本有n+1个类别,其中1至n为有效类、第n+1类为无效类,n≥1;步骤2.对训练样本中的文本进行预处理,得到训练用特征词集合;对该集合中有效类的特征词进行提取,再结合无效类的全部特征词,得到特征词典;由特征词典生成训练样本中各文本的特征向量,并获取训练样本的特征向量集;步骤3.利用特征向量集训练SVM分类器;步骤4.获取待分类的文本,对待分类的文本进行预处理,得到待分类文本的特征词集;根据特征词典生成待分类文本的特征向量;将该特征向量输入经过训练的SVM分类器,得到待分类文本的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于量子云未来(北京)信息科技有限公司;无锡量子云数字新媒体科技有限公司,未经量子云未来(北京)信息科技有限公司;无锡量子云数字新媒体科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610457431.X/,转载请声明来源钻瓜专利网。