[发明专利]一种利用多样化文本特征进行文本分类的方法有效
申请号: | 201810460235.7 | 申请日: | 2018-05-15 |
公开(公告)号: | CN108664633B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 黄书剑;李念奇;戴新宇;张建兵;尹存燕;陈家骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 多样化 文本 特征 进行 分类 方法 | ||
1.一种利用多样化文本特征进行文本分类的方法,其特征在于,包括如下步骤:
步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;
步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;
步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;
步骤4,通过新的文本特征表示对待分类样本进行分类;
步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布LDA的衍生算法Alter LDA算法生成多组不同的文本特征表示;
步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤A-1,使用词袋模型+TF-IDF权重将数据集X转换成特征矩阵,聚类个数T=1;
步骤A-2,使用k-Means聚类算法对数据集X进行聚类,得到数据的划分结果C1;
步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合,均值向量的计算公式为:
其中,表示第T组聚类的第i个簇,表示第T组聚类第i个簇中元素的个数,xj表示数据集X中第j个样本;
步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;
步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;
步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;
步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:
νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj (1)
其中,vj为表示向量,ξj为中间参数,计算公式为:
表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型;nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;
步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;
步骤A-9,重复步骤A-5到步骤A-8直到收敛;
步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;
步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量;
步骤1中,使用潜层狄利克雷分布的衍生算法Alter LDA算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤B-1,利用潜层狄利克雷分布算法,根据数据集X得到词的主题分布β(1),文档的主题分布作为第一组文本的特征表示,设置文本特征个数T=1;
步骤B-2,根据变分EM算法,求得变分参数φ与γ,更新文档主题分布;
步骤B-3,利用牛顿-拉夫逊方法,更新模型参数α;
步骤B-4,利用公式(2)更新模型参数β:
其中,βij为在第i个主题下,词典中第j个词的概率,词典是数据集X中所有词构成的列表,每个词只在词典中出现一次,词在词典中的顺序与词在数据集X中第一次出现的顺序相同;λi是预设的权重,d是对文档的计数,M为数据集X中文档的数量,Nd为第d篇文档中词的个数,φdni为第d篇文档中第n个词属于第i个主题的概率,是一个布尔变量,当第d篇文档中第n个词是词典中第j个词时,否则表示第t个主题结构中,第k个主题下第j个词的概率;
步骤B-5,重复步骤B-2到步骤B-4直到收敛,得到第T+1个词的主题βT+1,得到第T组文档主题分布,每个文档的主题分布作为该文档的特征向量;
步骤B-6,将T更新为T+1,重复步骤B-2到步骤B-5,直到T>n,得到n组不同的词的文本特征表示,n为期望得到的文本特征表示的数量;
步骤2中,将改进的Decorrelated k-Means算法和潜层狄利克雷分布LDA的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示,组合的方式为将样本的多个特征向量进行拼接,得到新的特征向量,向量拼接方法为:假设向量A=[a1,a2,...,am],向量B=[b1,b2,...,bn],其中m和n分别为向量A的长度和向量B的长度,ai(1≤i≤m)为向量A第i个位置的分量,bj(1≤j≤n)为向量第i个位置的分量,将向量A和向量B进行拼接,得到向量C,则向量C=[a1,a2,...,am,b1,b2,...,bn];
步骤3中,将每个样本的纵向多维度文本特征表示对应的样本特征向量采用步骤2中所述的方法进行拼接得到新的样本特征向量;
步骤3中,将每个样本由改进的Decorrelated k-Means算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第一个特征向量,将样本由LDA的衍生算法Alter LDA算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第二个特征向量,将每个样本由前述方法得到的两个特征向量进行拼接,为每个样本得到新的特征向量;
步骤3中,将每个样本的横向多维度文本特征表示对应的样本特征向量进行拼接,即将样本由不同文本特征表示算法生成的样本特征向量进行拼接,得到新的样本特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810460235.7/1.html,转载请声明来源钻瓜专利网。