[发明专利]基于多特征融合的微博文本数据分类方法有效

申请号：	201510163263.9	申请日：	2015-04-08
公开（公告）号：	CN104778240B	公开（公告）日：	2019-10-18
发明（设计）人：	卢玲;杨武;刘恒洋	申请（专利权）人：	重庆理工大学
主分类号：	G06F16/906	分类号：	G06F16/906
代理公司：	重庆市前沿专利事务所(普通合伙) 50211	代理人：	郭云
地址：	400054 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征融合文本数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多特征融合的微博文本数据分类方法，包括：步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。使用户获得有用信息的效率提高，从而实现数据的快速抓取，保证数据分类的准确性。

技术领域

本发明涉及计算机领域，尤其涉及一种基于多特征融合的微博文本数据分类方法。

背景技术

情感分析的目的是从文本中挖掘用户表达的观点以及情感极性。微博是一种新兴的社交网络平台，它具有多样性、实时性、短文本等特点。对中文微博进行情感识别，在网络舆情分析、信息过滤、用户兴趣发掘等领域都具有很好的应用前景。

现有的情感分类技术有机器学习方法及语义方法两类。Pang等人使用机器学习方法进行文本情感分类，比较了朴素贝叶斯、最大熵模型、和支持向量机方法的分类效果。此外以词频、二值和否定词为特征集的研究，在新闻评论中获得了较好的分类性能。语义方法方面，Turney提出了PMI-IR算法，其中短语的平均SO作为文本的情感倾向。朱嫣岚等提出了基于HowNet的语义相似度和语义相关场的计算方法。

目前，虽然国内外学者在情感分类方面已取得了一定的研究成果，但现有研究多是针对领域的评论性文本，对中文微博的情感倾向性分析研究仍然较少。另外，现有的文本情感分析多是识别情感的褒贬极性，较少涉及多情感类别的分析。与传统文本相比，中文微博具有长度短、情感层次丰富、文本表述不规范、存在大量网络新词汇等特点。因此，中文微博情感识别方法与传统文本还存在较大差异。同时由于微博情感语词不能很好的分类提取，对于用户在使用过程中造成了极大的困惑，降低了用户相关数据提取的效率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于多特征融合的微博文本数据分类方法。

为了实现本发明的上述目的，本发明提供了一种基于多特征融合的微博文本数据分类方法，其关键在于，包括：

步骤1，进行用户认证登录，获取微博文本数据信息，根据分类器获取特征信息并计算特征信息权重；

步骤2，通过朴素贝叶斯方法对特征信息进行分类，对于分类结果进行权值计算；

步骤3，将计算完成的分类结果进行分类融合，直到特征信息分类完毕，将分类完毕的特征信息进行展示操作。

所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤1包括：

步骤1-1，确定情感特征词集，所述情感特征词集包括程度副词、否定副词集、表情符号集、转折词集和感叹词集；

步骤1-2，设置数据信息观察窗口[-X，+X]，对文中的任意情感词，分别观察其左、右两边距离为X的词语数据，所述X为整数，如有程度副词或否定副词，则将其与当前词相连形成短语；如不存在否定副词或程度副词，则将当前词形成短语，并收集得到特征w和类别c；

步骤1-3，以词频作为获取特征信息得到特征信息权值的计算基础，通过公式，进行特征信息提取的计算；

其中：A是特征w和类别c共现的次数，B是w出现但c不出现的次数，C是c出现但w不出现的次数，D是w和c都不出现的次数，N是文档总数。

所述的基于多特征融合的微博文本数据分类方法，优选的，所述步骤2包括：