[发明专利]一种基于改进LSTM的商品评论细粒度情感分类方法在审
申请号: | 201911173494.2 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110929034A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 金庆雨;李勇;蔡圆媛;张青川 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06N3/04;G06N3/08;G06K9/62;G06F40/289 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 lstm 商品 评论 细粒度 情感 分类 方法 | ||
1.一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是,包括以下步骤:
步骤1:将商品评论数据从电商网站抓取下来,商品评论数据包含商品ID、商品类别、商品名称、商品评论内容和评论时间,将部分商品评论数据标注为积极类别与消极类别,并将标注好的数据分为训练集与测试集;
步骤2:对商品评论数据进行数据清洗,将一些对情感分类无用的标点符号进行删除,对商品评论进行分词;
步骤3:将步骤2中的每个分词转换为词向量,构建每个词对应的词向量矩阵;
步骤4:将情感词与主题词种子词库中的词转换为词向量,每一个词对应的向量矩阵作为种子词的向量矩阵,种子词的向量矩阵与步骤3获得的词向量矩阵进行相似度计算,其中种子词为主题词且相似度计算的值大于阈值的词作为主题词词库的扩充,种子词为情感词且相似度计算的值大于阈值的词作为情感词的扩充;
步骤5:在商品评论数据中提取出主题词与情感词,并将其映射为词向量,将二者之间的向量进行拼接,得到词向量拼接结果作为情感分类器的输入;
步骤6:情感分类器包括双向长短时记忆网络和softmax函数,步骤5的词向量拼接结果作为情感分类器的输入,经过两层LSTM神经网络模型通过输入门、输出门和遗忘门来控制模型训练过程中状态矩阵在不同时刻的流动;神经网络模型的网络通过记忆单元更新节点信息,从而学习文本序列中远距离依赖的特性,通过注意力层分别将主题词和情感词的权重进行调节,计算神经网络单元输出矩阵对应的权重,并求得输出矩阵与注意力层权重的加权和为商品评论的特征向量,使得得到更为精确的情感分类结果;最终通过softmax函数来输出商品评论的情感类别。
2.根据权利要求1所述的一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是:
所述步骤1中,通过编写电商网站的Python爬虫代码,对商品评论进行数据采集,将抓取的部分数据进行人工标注,将每一句商品评论标注为积极或者消极两类;最后将标注好的数据划分为训练集与测试集两部分。
3.根据权利要求1所述的一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是:
所述步骤2中,对采集的商品评论数据进行数据清洗,去除评论中的对情感分类无用的标点符号,使用结巴分词工具对商品评论数据进行分词。
4.根据权利要求1所述的一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是:
所述步骤3中,通过将商品评论分词后的结果使用Word2Vec将每个词映射为词向量,对抓取的商品评论数据进行训练,从而得到包含情感信息与语义信息的特征向量。
5.根据权利要求1所述的一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是:
所述步骤4中,通过将主题词种子词库与情感词种子词库使用Word2Vec将每个主题词或情感词映射为词向量,并将这些种子词与步骤3得到的商品评论的词向量进行相似度计算,根据两者之间的计算结果,相似度高的分别作为主题词词库与情感词库的扩充词库。
6.根据权利要求1所述的一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是:
所述步骤5中,商品评论的情感分类中有效成分为主题词与情感词,将用户评论的所有词进行词向量的转换,并计算评论中的词与主题词库之间的向量相似度,过滤评论中的主题词,计算评论中的词与情感词库之间的向量相似度,过滤评论中的情感词;过滤出主题词与情感词的方法与步骤4中扩充主题词库与情感词库的相似度计算方法相同;为了将评论包含的情感分类信息输入到情感分类模型中,将过滤出的主题词与情感词向量进行拼接。
7.根据权利要求1所述的一种基于改进LSTM的商品评论细粒度情感分类方法,其特征是:
所述步骤6中,将步骤5的结果主题词向量与情感词向量进行拼接作为情感分类器的输入;商品评论数据输入情感分类器中通过情感分类模型来对其进行倾向性分类;文本向量输入到情感分类模型中,首先经过两层长短时记忆网络进行评论对应矩阵的计算,两层网络中的各个隐藏层的节点都是相互连接的,并且这两层网络都连接着同一个输出层;为了突出主题词与情感词在评论句子中的作用,在输出层的矩阵中引入注意力机制,对输出层矩阵进行加权求和,从而提高情感分类最终的准确率;最后将数组矩阵输入到softmax函数中得到softmax值,确定该评论的情感倾向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911173494.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于动态字段的查询报表生成方法
- 下一篇:一种亚光光学扩散膜及其制备方法