[发明专利]一种融合显性和隐性特征的中文微博情感分析方法有效
申请号: | 201410723617.6 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104516947B | 公开(公告)日: | 2017-08-22 |
发明(设计)人: | 陈铁明;缪茹一 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州斯可睿专利事务所有限公司33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种融合显性和隐性特征的中文微博情感分析方法,包括以下步骤1)微博显性特征处理,1.1)表情符号处理;1.2)情感词处理;2)微博隐性特征处理基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析。本发明提供一种灵活性较高、可靠性较好的融合显性和隐性特征的中文微博情感分析方法。 | ||
搜索关键词: | 一种 融合 显性 隐性 特征 中文 情感 分析 方法 | ||
【主权项】:
一种融合显性和隐性特征的中文微博情感分析方法,其特征在于:所述中文微博情感分析方法包括以下步骤:1)微博显性特征处理,具体包括以下过程:1.1)表情符号处理:根据微博自带的表情构建情感符号库,依据7类情感分类方法,将情感分为高兴、喜好、愤怒、悲伤、恐惧、厌恶、惊讶七个类别,将出现频率排在前150的表情符号,作统一化处理,即先建立情感符号表,将150个表情符号放入情感符号表,通过查表方式判断该情感符号是否属于情感符号表,若是则提取情感符号,通过转换成情感类别后写入情感特征表;1.2)情感词处理:建立一个情感词典的情感词表,将这些情感词放入词表中,通过查表的方式判断通过文本分词后是否是情感词,若是则提取情感词,并写入情感特征表;先建立一个网络词汇的情感词表,将这些网络词汇放入词表中,通过查表方式判定部分微博内容的情感类别;2)微博隐性特征处理:基于频繁项集创建初始情感簇,每个初始情感簇文本都含有频繁项集,采用知网的中文语义相似度模型,根据最大语义隶属度原则分离各个初始情感簇;最后,通过定义簇间语义相似度矩阵,完成微博情感簇的凝聚式层次聚类,并优化得到最终的情感簇,实现微博情感分析;所述步骤2)包括以下过程:2.1)采用频繁集挖掘算法Apriori来计算挖掘频繁词集利用频繁项集划分构造初始情感簇,将包含频繁趋势词集微博划分为一个簇,得到基于频繁项集初始情感簇,同时,将描述初始情感 簇的频繁项集作为对应情感簇临时标识,通过抽取各个初始情感簇的频繁项集来代表这个初始情感簇情感语义;所述步骤2.1)中,定义1:对数据库E中某个项集X,若项集X在数据库E中出现的次数大于预设比例,则称X是数据库E的频繁项集,这个预设比例称作最小支持度;若将文本看成一条事务,文本词汇对应事务中的项目,则可将文本d表示为:d=<t1,t2,…,tn>,其中n表示文本d包含的特征词汇数量;定义2:对文本集D的某个词集W,若W在D中的支持度s(W)≥min_s,则称词集W是文本集D的频繁词集,min_s为全局最小支持度;扫描文本集D,利用词频趋势度统计候选项集出现的次数,收集满足最小支持度min_s设定的项集,记为频繁项集;利用产生的频繁k‑项集构造强关联规则,利用频繁k‑项集构造候选(k+1)‑项集,反复迭代直至候选(k+1)‑项集为空;2.2)微博语义隶属度初始簇重叠消减将每条微博归属到一个情感簇,计算簇间重叠部分对初始情感簇的情感语义隶属度,最后按最大语义隶属度原则进行簇分配;再删除那些初始簇分离后大小为0的空簇,重叠消减后的初始簇称为候选情感簇;2.3)基于语义相似度的凝聚式情感聚类:对候选情感簇进行凝聚式层次聚类,合并情感簇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410723617.6/,转载请声明来源钻瓜专利网。