[发明专利]基于多特征融合的微博文本数据分类方法有效
申请号: | 201510163263.9 | 申请日: | 2015-04-08 |
公开(公告)号: | CN104778240B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 卢玲;杨武;刘恒洋 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云 |
地址: | 400054 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 融合 文本 数据 分类 方法 | ||
1.一种基于多特征融合的微博文本数据分类方法,其特征在于,包括:
步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算特征信息权重;
步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算,定义权值为:
W={pt∈T},
其中,t是情感类别;T为情感类别空间,记为:T={like,angry,disgust,sadness,happiness,fear,surprise},即为T={喜欢,生气,厌恶,悲伤,幸福,胆怯,惊讶},pt是分类器在类别t上的分类正确率;
定义k为样本组别,其中1≤k≤N,N为文档总数;s为样本规模,s∈S;S={1000,1500,2000,2500};D(s,k)是样本规模为s时的第k组样本;样本的规模组别为GroupN,其中1≤GroupN≤|S|,其中|S|为S的模,记NS=|S|;对分类器Nf,为保证权值的稳定性,计算权值时,需要从训练集中选取多种规模、多组别的样本进行计算;
步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的特征信息进行展示操作;
所述步骤2中权值计算步骤为:
步骤2-11初始化的步骤,令k=1,GroupN=1,s=S[GroupN],
步骤2-12,用Nf对D(s,k)分类,计算Nf在类别t中的正确率pt,将其作为Nf在类别t的权值,由此得到Nf在规模为s时的第k组权值向量,定义为:
W(s,k)={pt};
步骤2-13,如果k≤N,则令k=k+1;返回步骤2-12;
否则,执行步骤2-14;
步骤2-14,计算权值向量:
步骤2-15,如果GropuN<NS,则令GroupN=GroupN+1;k=1;s=S[GroupN];返回步骤2-12;
否则将作为Nf的权值向量。
2.根据权利要求1所述的基于多特征融合的微博文本数据分类方法,其特征在于,所述步骤1包括:
步骤1-1,确定情感特征词集,所述情感特征词集包括程度副词、否定副词集、表情符号集、转折词集和感叹词集;
步骤1-2,设置数据信息观察窗口[-X,+X],对文中的任意情感词,分别观察其左、右两边距离为X的词语数据,所述X为整数,如有程度副词或否定副词,则将其与当前词相连形成短语;如不存在否定副词或程度副词,则将当前词形成短语,并收集得到特征w和类别c;
步骤1-3,以词频作为获取特征信息得到特征信息权值的计算基础,通过公式,进行特征信息提取的计算;
其中:A是特征w和类别c共现的次数,B是w出现但c不出现的次数,C是c出现但w不出现的次数,D是w和c都不出现的次数,N是文档总数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510163263.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于日历的照片管理方法及其装置
- 下一篇:一种歌曲拼接算法及装置