[发明专利]一种基于主题模型的在线评论情感挖掘方法在审

申请号：	201910975438.4	申请日：	2019-10-15
公开（公告）号：	CN110807315A	公开（公告）日：	2020-02-18
发明（设计）人：	骆祥峰;黄敬;易亚雯	申请（专利权）人：	上海大学;阿里巴巴集团控股有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/289;G06F40/30
代理公司：	上海上大专利事务所(普通合伙) 31205	代理人：	陆聪明
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题模型在线评论情感挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于主题模型的在线评论情感挖掘方法。该方法具体步骤如下：（1）输入任意领域中的在线评论文本集；（2）从评论文本集中为每篇文本抽取文本方面意见对，构建文本‑方面意见对矩阵；（3）构建情感主题模型；（4）将文本‑方面意见对矩阵输入情感主题模型进行训练；（5）输出评论文本情感挖掘结果。该方法通过采用抽取评论文本方面意见对代替传统的词汇作为主题模型输入的方法，解决了属性词和观点词混杂、单一词汇情感模糊的问题，提高了评论文本情感分析的准确性和可解释性；同时降低了文本表示的维度，削减了模型计算时间；该方法简便易操作，效果好。

技术领域

本发明涉及信息抽取中事件抽取领域，具体是涉及一种基于主题模型的在线评论情感挖掘方法。

背景技术

目前，许多研究者通过结合情感层来扩展主题模型(LDA，Latent DirichletAllocation)的方法来分析文本情感，将文本表示成一个词袋，词袋由文本中的词汇构成。基于LDA的主题模型能够在一定程度上有效地挖掘文本的情感。

使用传统的主题模型扩展的方式挖掘文本情感时，存在以下不足：(1)把文本看成词袋，忽略了词汇之间的依赖关系，这样就损失了大量的文本语义；(2)将文本表示成词汇的集合，使得模型输入维度过高，计算费时。

发明内容

本发明的目的在于针对传统的主题模型扩展方法挖掘文本情感的不足，提供一种基于主题模型的在线评论情感挖掘方法。采用抽取评论文本方面意见对代替传统的词汇作为主题模型扩展模型输入的方法，解决了属性词和观点词混杂、单一词汇情感模糊的问题，提高了评论文本情感分析的准确性和可解释性；同时降低了文本表示的维度，削减了模型计算时间。

为了达到上述的目的，本发明的构思如下：采用评论文本的方面意见对代替传统的词汇作为主题模型的输入，降低文本表示的维度，增加文本的表示的语义性，为模型的输入提供更多的语义信息。

根据上述的发明思想，本发明采用下述技术方案：

一种基于主题模型的在线评论情感挖掘方法，具体步骤如下：

(1)输入任意领域中的在线评论文本集；

(2)从评论文本集中为每篇文本抽取文本方面意见对，构建文本-方面意见对矩阵；

(3)构建情感主题模型；

(4)将文本-方面意见对矩阵输入情感主题模型进行训练；

(5)输出评论文本情感挖掘结果。

所述步骤(2)中的抽取文本方面意见对，其过程如下：

(2-1)、将评论文本集中每篇评论文本按标点符号分割成评论单元，并采用分词工具对每一个评论单元分词、词性标注、去停用词，副词一般用来修饰形容词或动词，因此将副词与其修饰的部分合并成一个整体，然后将整体的词性注释为被修饰语的词性；

(2-2)、按词性匹配模式对每个评论单元进行模式匹配，抽取方面意见对，将每篇评论文本转变成方面意见对的集合，并形成方面意见对词对表；

(2-3)、方面意见对词对表中每一项使用关联强度计算公式计算其关联强度，再根据关联强度降序排列方面意见对项，取TopN个方面意见对项，形成文本-方面意见对矩阵；方面意见对的关联强度计算公式如下：