[发明专利]基于多特征融合的微博文本数据分类方法有效

专利信息
申请号: 201510163263.9 申请日: 2015-04-08
公开(公告)号: CN104778240B 公开(公告)日: 2019-10-18
发明(设计)人: 卢玲;杨武;刘恒洋 申请(专利权)人: 重庆理工大学
主分类号: G06F16/906 分类号: G06F16/906
代理公司: 重庆市前沿专利事务所(普通合伙) 50211 代理人: 郭云
地址: 400054 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于多特征融合的微博文本数据分类方法,包括:步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算特征信息权重;步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算;步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高,从而实现数据的快速抓取,保证数据分类的准确性。
搜索关键词: 基于 特征 融合 文本 数据 分类 方法
【主权项】:
1.一种基于多特征融合的微博文本数据分类方法,其特征在于,包括:步骤1,进行用户认证登录,获取微博文本数据信息,根据分类器获取特征信息并计算特征信息权重;步骤2,通过朴素贝叶斯方法对特征信息进行分类,对于分类结果进行权值计算,定义权值为:W={pt∈T},其中,t是情感类别;T为情感类别空间,记为:T={like,angry,disgust,sadness,happiness,fear,surprise},即为T={喜欢,生气,厌恶,悲伤,幸福,胆怯,惊讶},pt是分类器在类别t上的分类正确率;定义k为样本组别,其中1≤k≤N,N为文档总数;s为样本规模,s∈S;S={1000,1500,2000,2500};D(s,k)是样本规模为s时的第k组样本;样本的规模组别为GroupN,其中1≤GroupN≤|S|,其中|S|为S的模,记NS=|S|;对分类器Nf,为保证权值的稳定性,计算权值时,需要从训练集中选取多种规模、多组别的样本进行计算;步骤3,将计算完成的分类结果进行分类融合,直到特征信息分类完毕,将分类完毕的特征信息进行展示操作;所述步骤2中权值计算步骤为:步骤2‑11初始化的步骤,令k=1,GroupN=1,s=S[GroupN],步骤2‑12,用Nf对D(s,k)分类,计算Nf在类别t中的正确率pt,将其作为Nf在类别t的权值,由此得到Nf在规模为s时的第k组权值向量,定义为:W(s,k)={pt};步骤2‑13,如果k≤N,则令k=k+1;返回步骤2‑12;否则,执行步骤2‑14;步骤2‑14,计算权值向量:步骤2‑15,如果GropuN<NS,则令GroupN=GroupN+1;k=1;s=S[GroupN];返回步骤2‑12;否则作为Nf的权值向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510163263.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top