[发明专利]基于多特征融合的微博文本数据分类方法有效
申请号: | 201510163263.9 | 申请日: | 2015-04-08 |
公开(公告)号: | CN104778240B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 卢玲;杨武;刘恒洋 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 郭云 |
地址: | 400054 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多特征融合的微博文本数据分类方法,包括:步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算特征信息权重;步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算;步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高,从而实现数据的快速抓取,保证数据分类的准确性。 | ||
搜索关键词: | 基于 特征 融合 文本 数据 分类 方法 | ||
【主权项】:
1.一种基于多特征融合的微博文本数据分类方法,其特征在于,包括:步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算特征信息权重;步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算,定义权值为:W={pt∈T},其中,t是情感类别;T为情感类别空间,记为:T={like,angry,disgust,sadness,happiness,fear,surprise},即为T={喜欢,生气,厌恶,悲伤,幸福,胆怯,惊讶},pt是分类器在类别t上的分类正确率;定义k为样本组别,其中1≤k≤N,N为文档总数;s为样本规模,s∈S;S={1000,1500,2000,2500};D(s,k)是样本规模为s时的第k组样本;样本的规模组别为GroupN,其中1≤GroupN≤|S|,其中|S|为S的模,记NS=|S|;对分类器Nf,为保证权值的稳定性,计算权值时,需要从训练集中选取多种规模、多组别的样本进行计算;步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的特征信息进行展示操作;所述步骤2中权值计算步骤为:步骤2‑11初始化的步骤,令k=1,GroupN=1,s=S[GroupN],步骤2‑12,用Nf对D(s,k)分类,计算Nf在类别t中的正确率pt,将其作为Nf在类别t的权值,由此得到Nf在规模为s时的第k组权值向量,定义为:W(s,k)={pt};步骤2‑13,如果k≤N,则令k=k+1;返回步骤2‑12;否则,执行步骤2‑14;步骤2‑14,计算权值向量:
步骤2‑15,如果GropuN<NS,则令GroupN=GroupN+1;k=1;s=S[GroupN];返回步骤2‑12;否则
将
作为Nf的权值向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510163263.9/,转载请声明来源钻瓜专利网。
- 上一篇:基于日历的照片管理方法及其装置
- 下一篇:一种歌曲拼接算法及装置