[发明专利]一种文本分类方法及装置有效
申请号: | 201710301466.9 | 申请日: | 2017-05-02 |
公开(公告)号: | CN107145560B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 姚海鹏;张博;张培颖;章扬;王露瑶;殷志强 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 马敬;项京 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 装置 | ||
1.一种文本分类方法,其特征在于,包括:
通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量;
根据预先建立的语义平滑矩阵将所述第一文本向量映射为高维空间中的第一映射向量,其中,所述语义平滑矩阵是通过对统计相似度矩阵和词语相似度矩阵进行计算得到;
对所述第一映射向量进行分类,得到所述待分类文本的文本分类结果;
在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,所述方法还包括:
通过文本表示将训练文本映射为VSM中的第二文本向量;
根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵;
根据世界知识,确定所述第二文本向量的词语相似度矩阵;
根据所述统计相似度矩阵和所述词语相似度矩阵,确定所述语义平滑矩阵。
2.根据权利要求1所述的文本分类方法,其特征在于,在所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量之前,所述方法还包括:
对所述待分类文本进行预处理,得到预处理后的待分类文本;
所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
通过文本表示将预处理后的待分类文本映射为VSM中的第一文本向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述通过文本表示将待分类文本映射为向量空间模型VSM中的第一文本向量,包括:
如果所述待分类文本dj中包含的n个特征词分别为:w1j,w2j,…,wnj,所述n个特征词构成的向量表示为:(w1j,w2j,…,wnj),根据权重计算公式:确定所述第一文本向量中特征词w的权重Uw,c(w,dj);w包括:w1j,w2j,…,wnj,则所述第一文本向量表示为:[Uw,c(w1j,dj),Uw,c(w2j,dj),…,Uw,c(wnj,dj)],
其中,tfcw,c表示特征词w在类别c中出现的总个数,|D|表示文本的总个数,dfw表示包含特征词w的文本的总个数。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据核矩阵公式,计算所述第二文本向量的统计相似度矩阵,包括:
根据所述核矩阵公式:S=UUT,确定所述第二文本向量的统计相似度矩阵S,
其中,U表示所述第二文本向量中特征词的权重形成的矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710301466.9/1.html,转载请声明来源钻瓜专利网。