[发明专利]一种文本分类的方法有效

申请号：	201510267849.X	申请日：	2015-05-22
公开（公告）号：	CN104866573B	公开（公告）日：	2018-02-13
发明（设计）人：	耿玉水;杨涛;杨振宇	申请（专利权）人：	齐鲁工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南信达专利事务所有限公司37100	代理人：	孟峣
地址：	250353 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本分类的方法，其特征词在于，其具体实现步骤为，

一、首先获取网络中的文本；

二、对文本进行预处理，提取特征词，对网络中的文本进行分词，然后去除停用词；

三、计算出网络文本中各特征词的权重，并将文本用向量模型进行表示；

所述特征词的权重计算通过改进的TFIDF算法完成，该改进的TFIDF的算法的具体内容为：

IDF＝logn×log(N/(n+k)+0.01)，其中n∈N^+，且n+k≠0；

其中，总文档文本数为N，包含特征词t_i的文档数为n，k为任意参数，对选取的特征词t_i的权重进行调整，在该公式中，当含特征词t_i的文档数n逐渐增大时，特征词t_i的文档区分能力逐渐增强，当n达到某一值时，特征词t_i的文档区分能力应随着n的增大而逐渐减少，在IDF公式中，IDF先增后减，且n趋向于1和n趋向于N时，IDF都趋向于0。

2.根据权利要求1所述的一种文本分类的方法，其特征词在于，所述特征词的选取过程为：

构造评估函数，对特征词集合中的每个特征词进行评估，并对每个特征词打分，使每个词语都获得一个评估值，即权值；

然后将所有特征词按权值大小排序；

提取预定数目的最优特征词作为提取结果的特征词子集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学，未经齐鲁工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510267849.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本分类的方法有效

专利文献下载