[发明专利]一种基于文本分类的情绪指数分析系统在审
申请号: | 201711113724.7 | 申请日: | 2017-11-13 |
公开(公告)号: | CN107885849A | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 周楠;张劲松 | 申请(专利权)人: | 成都蓝景信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q40/04 |
代理公司: | 成都中亚专利代理有限公司51126 | 代理人: | 王岗 |
地址: | 610000 四川省成都市武侯区武侯*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本分类的情绪指数分析系统;其主要解决了自动识别文本情绪倾向的问题,从网络文本内容中,分析识别出文本所包含的情绪倾向,并将文本倾向分为积极,消极和中性三种情况。使用训练的集成模型可以自动化处理文本,能在短时间内处理海量文本,可以实时掌握网络用户整体情绪倾向的变化情况。本发明通过实施具有如下的有益效果该方法克服了现有专利没有充分利用互联网海量文本信息的缺点;将文本内容向量化,使得针对文本内容可以方便的使用各种分类算法;使用聚合模型可以使分类的结果比单一模型更准确。 | ||
搜索关键词: | 一种 基于 文本 分类 情绪 指数 分析 系统 | ||
【主权项】:
一种基于文本分类的情绪指数分析系统,其特征在于:构建分词模块:首先将文本分词,然后将文本内容转化为单词向量的形式;遍历分词的结果列表,如果该文本内包含某个词,那么对应位置的值为1,否则为0;构建分类模块:首先人工标注部分样本,将其文本内包含的情绪分为积极(1)、消极(‑1)、中性(0)三种;将标注好的标注集中,选取k%作为训练集,剩余的1‑k%作为预测集;使用训练集,训练出分类模型,预测集用来检验模型效果,并适当调整模型参数;分别训练出逻辑回归、支持向量机、贝叶斯分类等分类模型,然后使用了集成学习,对之前训练出的模型聚合,这里使用投票聚合的方式,对各个不同模型预测的结果进行投票,占多数的模型分类结果就是聚合模型的结果;然后使用聚合模型,对于已经向量化的待分类文本进行分类,得到每个文本的情绪分类结果;构建情绪指数模块:得到每条文本的情绪倾向,然后可以计算积极倾向的文本数占所有文本的比例,将其定义为情绪指数;计算公式如下:Indexik=Σj=kϵ(Postijn)count(Postikn)ϵ(t)=1t>00t≤0]]>其中Postijn表示第i个社团在第j天所发的编号为n的帖子的情绪倾向,函数ε识别出发布文本中持积极情绪的那部分结果,Indexik表示第i个社团在第k天的情绪指数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都蓝景信息技术有限公司,未经成都蓝景信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711113724.7/,转载请声明来源钻瓜专利网。