[发明专利]一种文本自动分类方法无效
申请号: | 03121034.1 | 申请日: | 2003-03-21 |
公开(公告)号: | CN1438592A | 公开(公告)日: | 2003-08-27 |
发明(设计)人: | 薛德军;孙茂松 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文本自动分类方法属于文本自动分类技术领域,其特征在于:它把二元权重计算方法引入到基于向量空间模型(VSM)的线性分类器,并结合复杂的非二元权重对二元权重进行平滑,以便一次性地对所有文本进行自动分类;它在构建线性分类器时,用可调系数k来调整非二元权重的平滑能力。它的分类准确率比只用二元权重的或者只用非二元权重的都要高,它在不同数量的特征集上都具有很高的分类准确率,而且用不同的非二元权重方法进行平滑的分类准确率大致相同。 | ||
搜索关键词: | 一种 文本 自动 分类 方法 | ||
【主权项】:
1、一种文本自动分类方法,其特征在于,它是一种基于非二元平滑的二元特征权重计算的文本自动分类方法;它把二元权重计算方法引入到基于向量空间模型(VectorSpaceModel,VSM)的线性分类器,并结合复杂的非二元权重对二元权重进行平滑,以便一次性地对所有文本进行自动分类;该分类方法在计算机内执行时依次含有以下步骤:在学习阶段:(1)输入学习文本集;(2)确定采用的特征单位以及线性分类器类型;(3)对学习集进行预处理;(4)特征抽取:对学习集进行索引,得到原始特征集以及各学习文本的频度向量。某文本d的特征频度向量可表示为:d=(tf1,tf2,...,tfn)其中:n为原始特征集包含的特征总数;tfi为第i个特征在文本d中的频度。(5)对原始特征集采用现有的特征选择技术,如频度降维、Chi-Square权重降维,进行降维操作,得到特征集;(6)以类型为单位,合并各学习文本的频度向量,得到类型的轮廓描述(Profile)频度向量:Cj=(tf1j,tf2j,...,tfnj)其中:tfij为第i个特征在类型Cj的所有学习文本中出现的频度和。(7)根据步骤(6)的结果计算类型轮廓描述的二元权重向量,并按所确定的特征非二元权重计算方法,计算类型轮廓描述的非二元权重向量:Cjb=(w1jb,w2jb,...,wnjb),Cjb=(w1jb,w2jb,...,wnjb),其中:wijb为第i个特征在类型Cj中的二元权重;wijb为第i个特征在类型Cj中的非二元权重;(8)根据下式构建相应的线性分类器:f=argmaxpj=1M(Cjb·db+k·Cjb‾·db‾),其中:M为类型总数;p为文本可能属于的类型数:p=1,为单类分类器;p>1为多类分类器;k为可调系数,用于调整非二元权重的平滑能力;·为向量内积操作;db,db为待分类文本d的二元权重向量和非二元权重向量;(9)用一部分测试文本作为待分类文本,按照分类阶段的步骤对上一步骤得到的分类器进行测试,优化分类器的性能;(10)学习阶段结束;在分类阶段:(1)输入待分类文本(集);(2)按学习阶段相同的方法对待分类文本进行预处理;(3)根据学习阶段建立的特征集为待分类文本建立索引,得到文本频度向量,见学习阶段步骤(4);(4)计算待分类文本的二元权重向量,并按所确定的非二元权重计算方法计算待分类文本的非二元权重向量:db=(w1b,w2b,...,wnb),db=(w1b,w2b,...,wnb),其中:db,db为某一待分类文本d的二元权重向量和非二元权重向量;wib,wib为第i个特征在待分类文本d中的二元权重和非二元权重;(5)按分类器进行自动分类,见学习阶段步骤(8),得到分类结果;(6)分类阶段结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/03121034.1/,转载请声明来源钻瓜专利网。