[发明专利]一种基于主题模型的在线评论情感挖掘方法在审
申请号: | 201910975438.4 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110807315A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 骆祥峰;黄敬;易亚雯 | 申请(专利权)人: | 上海大学;阿里巴巴集团控股有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 在线 评论 情感 挖掘 方法 | ||
本发明公开了一种基于主题模型的在线评论情感挖掘方法。该方法具体步骤如下:(1)输入任意领域中的在线评论文本集;(2)从评论文本集中为每篇文本抽取文本方面意见对,构建文本‑方面意见对矩阵;(3)构建情感主题模型;(4)将文本‑方面意见对矩阵输入情感主题模型进行训练;(5)输出评论文本情感挖掘结果。该方法通过采用抽取评论文本方面意见对代替传统的词汇作为主题模型输入的方法,解决了属性词和观点词混杂、单一词汇情感模糊的问题,提高了评论文本情感分析的准确性和可解释性;同时降低了文本表示的维度,削减了模型计算时间;该方法简便易操作,效果好。
技术领域
本发明涉及信息抽取中事件抽取领域,具体是涉及一种基于主题模型的在线评论情感挖掘方法。
背景技术
目前,许多研究者通过结合情感层来扩展主题模型(LDA,Latent DirichletAllocation)的方法来分析文本情感,将文本表示成一个词袋,词袋由文本中的词汇构成。基于LDA的主题模型能够在一定程度上有效地挖掘文本的情感。
使用传统的主题模型扩展的方式挖掘文本情感时,存在以下不足:(1)把文本看成词袋,忽略了词汇之间的依赖关系,这样就损失了大量的文本语义;(2)将文本表示成词汇的集合,使得模型输入维度过高,计算费时。
发明内容
本发明的目的在于针对传统的主题模型扩展方法挖掘文本情感的不足,提供一种基于主题模型的在线评论情感挖掘方法。采用抽取评论文本方面意见对代替传统的词汇作为主题模型扩展模型输入的方法,解决了属性词和观点词混杂、单一词汇情感模糊的问题,提高了评论文本情感分析的准确性和可解释性;同时降低了文本表示的维度,削减了模型计算时间。
为了达到上述的目的,本发明的构思如下:采用评论文本的方面意见对代替传统的词汇作为主题模型的输入,降低文本表示的维度,增加文本的表示的语义性,为模型的输入提供更多的语义信息。
根据上述的发明思想,本发明采用下述技术方案:
一种基于主题模型的在线评论情感挖掘方法,具体步骤如下:
(1)输入任意领域中的在线评论文本集;
(2)从评论文本集中为每篇文本抽取文本方面意见对,构建文本-方面意见对矩阵;
(3)构建情感主题模型;
(4)将文本-方面意见对矩阵输入情感主题模型进行训练;
(5)输出评论文本情感挖掘结果。
所述步骤(2)中的抽取文本方面意见对,其过程如下:
(2-1)、将评论文本集中每篇评论文本按标点符号分割成评论单元,并采用分词工具对每一个评论单元分词、词性标注、去停用词,副词一般用来修饰形容词或动词,因此将副词与其修饰的部分合并成一个整体,然后将整体的词性注释为被修饰语的词性;
(2-2)、按词性匹配模式对每个评论单元进行模式匹配,抽取方面意见对,将每篇评论文本转变成方面意见对的集合,并形成方面意见对词对表;
(2-3)、方面意见对词对表中每一项使用关联强度计算公式计算其关联强度,再根据关联强度降序排列方面意见对项,取TopN个方面意见对项,形成文本-方面意见对矩阵;方面意见对的关联强度计算公式如下:
其中,Co(wi,wj)代表关键词wi和wj在评论文本抽取单元集合中的共现次数,DF(wi)与DF(wj)分别代表wi和wj在方面意见对集合中的词频。
所述步骤(3)的情感主题模型,其构建过程如下:
(3-1)、基于狄利克雷超参α生成语料库的主题分布的多项式参数θ;其中α是θ所服从的狄利克雷分布的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学;阿里巴巴集团控股有限公司,未经上海大学;阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910975438.4/2.html,转载请声明来源钻瓜专利网。