[发明专利]融合表情符号库和主题模型的方面观点褒贬态度挖掘方法在审
申请号: | 201811134055.6 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109284381A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 张士兵;张茜;张晓格 | 申请(专利权)人: | 南通大学;南通先进通信技术研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/2458;G06F17/27 |
代理公司: | 南京汇盛专利商标事务所(普通合伙) 32238 | 代理人: | 吴静安;吴扬帆 |
地址: | 226000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 表情符号库 主题模型 挖掘 评论 显式 隐式 用户评论 融合 相似度矩阵 参数估计 聚类算法 融合应用 原创内容 构建 分析 | ||
1.一种融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于包括如下步骤:
步骤1)对原创微博内容及评论进行预处理,提取评论语句的当中的名词和名词短语作为该评论的方面,提取形容词及形容词短语、动词及动词短语作为基于方面的观点词语信息,计算原创微博及评论中的方面之间的相似度矩阵,通过谱聚类算法得到与原创微博方面相关的显式方面集与与原创微博方面不相关的隐式方面集;
步骤2)构建融合表情符号库与主题模型的方面观点褒贬态度的挖掘模型MAOEC,通过MAOEC模型产生微博评论集,并用吉布斯采样方法进行参数估计,得到MAOEC模型的参数分布;
步骤3)结合显式方面集、隐式方面集以及MAOEC模型的参数分布对微博评论进行褒贬态度分析,得到每条用户评论对原创微博内容的褒贬态度倾向。
2.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于所述步骤1)中的所述预处理为:基于中科院NLPIR汉语分词系统,对原创微博的内容及评论进行分词和词性标注,保留名词及名词短语、动词及动词短语、形容词及形容词短语以及表情符号的文本描述,并且去除停用词。
3.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于所述显式方面集表示与原创微博方面相关的评论方面的集合;所述隐式方面集表示存在于评论当中的与原创微博方面不相关的集合。
4.根据权利要求3所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于步骤1)中通过谱聚类算法得到与原创微博方面相关的显式方面集和与原创微博方面不相关的隐式方面集,具体包括如下步骤:
步骤2-1)计算方面数n,设置簇的数目k;
步骤2-2)使用杰卡德相似系数计算名方面之间的字符相似度,使用余弦相似度计算方面之间的情景相似度,结合字符相似度与情景相似度的值求的方面之间的相似度矩阵W与度矩阵D;
步骤2-3)根据式(1)计算正则拉普拉斯矩阵Lrw;
Lrw=D-1(D-W) (1)
步骤2-4)计算Lrw的前k个特征向量u1,u2,...,uk,将这k个列向量组成矩阵U,U是一个n行k列的矩阵;
步骤2-5)对于i=1,2,...,n,设定yi∈Rk是U的第i行的列向量,通过k-means算法将(yi)i=1,2,...,n聚类成簇c1,c2,...,ck,输出簇A1,A2,...,Ak,其中Ai={j|yj∈Ci};
步骤2-6)基于步骤2-5)得到的结果,将与原创微博方面相关的其他方面簇加入显式方面集,否则加入隐式方面集。
5.根据权利要求1所述的融合表情符号库和主题模型的方面观点褒贬态度挖掘方法,其特征在于步骤2)中所述挖掘模型在MAOEC通过主题模型LDA;参数估计中的参数分布包括:微博评论-表情符号分布,(微博评论,表情符号情感)-文本情感分布,(微博评论,表情符号情感,文本情感)-主题分布以及(表情符号情感,文本情感,主题)-词语分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学;南通先进通信技术研究院有限公司,未经南通大学;南通先进通信技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811134055.6/1.html,转载请声明来源钻瓜专利网。