[发明专利]一种文本精细分类方法有效

申请号：	201510239027.0	申请日：	2015-05-12
公开（公告）号：	CN104820703A	公开（公告）日：	2015-08-05
发明（设计）人：	郑胜;张胜;邹复好;蒋丹;夏明;周可	申请（专利权）人：	武汉数为科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	武汉东喻专利代理事务所(普通合伙) 42224	代理人：	宋业斌
地址：	430074 湖北省武汉***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种文本精细分类方法，属于计算机自然语言处理或模式识别技术领域，解决现有文本分类方法针对短文档精细类别划分准确率低的问题。本发明首先根据已知训练样本，构造两级分类器，每一级分类器都包含独立的敏感词典；其次，对分类器的训练样本执行分词、去除专用停顿词、同义词网映射等操作，实现词向量的预处理；再次，根据词向量的重要性差异进行特征选择，构建分类器的敏感词典；再次，利用KNN算法计算目标文档的精细分类结果；最后，对分类结果进行评价与反馈，动态优化敏感词典，进一步提高分类准确率。实验证明，针对短文档，采用本文的文本精细分类方法，可以显著提高精细分类的准确率。
搜索关键词：	一种文本精细分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种文本精细分类方法，其特征在于，包括两级分类器构造步骤、词向量预处理步骤、敏感词典构建步骤、文本精细分类步骤和评价与反馈步骤，其中：(1)两级分类器构造步骤：根据应用需求和原始文档集数据分布，将分类器划分为M个一级分类器和N个二级分类器，每个一级分类器C_i都至少包含一个以上的二级分类器C_j，每个二级分类器都从属于某个一级分类器；其中N>＝M；i＝1,...,M；j＝1,...,N；(2)词向量预处理步骤：对分类器的训练样本进行词向量的预处理，包括对分类器的训练样本执行中文分词、去除专用停顿词和同义词网映射；(3)敏感词典构建步骤：通过对预处理后得到的词向量进行特征选择和人工标注相结合方式，分别为每一个分类器构建独有的敏感词典；(4)文本精细分类步骤：利用步骤(3)得到各级分类器的敏感词典，输入测试文档，将其与两级分类器进行匹配计算，得到最终的分类结果；(5)评价与反馈步骤：对步骤(4)得到的分类结果进行评价，并跳转到步骤(3)，根据反馈的评价对分类器的敏感词典进行动态优化。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉数为科技有限公司，未经武汉数为科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510239027.0/，转载请声明来源钻瓜专利网。

上一篇：一种可扩展的面向关联的流式图数据划分方法
下一篇：一种基于决策树的属性加权方法及文本分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本精细分类方法有效

专利文献下载