[发明专利]基于多特征融合的微博文本数据分类方法有效

申请号：	201510163263.9	申请日：	2015-04-08
公开（公告）号：	CN104778240B	公开（公告）日：	2019-10-18
发明（设计）人：	卢玲;杨武;刘恒洋	申请（专利权）人：	重庆理工大学
主分类号：	G06F16/906	分类号：	G06F16/906
代理公司：	重庆市前沿专利事务所(普通合伙) 50211	代理人：	郭云
地址：	400054 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多特征融合的微博文本数据分类方法，包括：步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高，从而实现数据的快速抓取，保证数据分类的准确性。
搜索关键词：	基于特征融合文本数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多特征融合的微博文本数据分类方法，其特征在于，包括：步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算，定义权值为：W＝{p_t∈T}，其中，t是情感类别；T为情感类别空间，记为：T＝{like,angry,disgust,sadness,happiness,fear,surprise}，即为T＝{喜欢，生气，厌恶，悲伤，幸福，胆怯，惊讶}，p_t是分类器在类别t上的分类正确率；定义k为样本组别，其中1≤k≤N，N为文档总数；s为样本规模，s∈S；S＝{1000,1500,2000,2500}；D_(s,k)是样本规模为s时的第k组样本；样本的规模组别为GroupN，其中1≤GroupN≤|S|，其中|S|为S的模，记NS＝|S|；对分类器N_f，为保证权值的稳定性，计算权值时，需要从训练集中选取多种规模、多组别的样本进行计算；步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作；所述步骤2中权值计算步骤为：步骤2‑11初始化的步骤，令k＝₁，GroupN＝1，s＝S[GroupN]，步骤2‑12，用N_f对D_(s,k)分类，计算N_f在类别t中的正确率p_t，将其作为N_f在类别t的权值，由此得到N_f在规模为s时的第k组权值向量，定义为：W_(s,k)＝{p_t}；步骤2‑13，如果k≤N，则令k＝k+1；返回步骤2‑12；否则，执行步骤2‑14；步骤2‑14，计算权值向量：步骤2‑15，如果GropuN＜NS，则令GroupN＝GroupN+1；k＝1；s＝S[GroupN]；返回步骤2‑12；否则将作为N_f的权值向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆理工大学，未经重庆理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510163263.9/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多特征融合的微博文本数据分类方法有效

专利文献下载