[发明专利]一种基于改进LSTM的商品评论细粒度情感分类方法在审
申请号: | 201911173494.2 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110929034A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 金庆雨;李勇;蔡圆媛;张青川 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06N3/04;G06N3/08;G06K9/62;G06F40/289 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 邓治平 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 lstm 商品 评论 细粒度 情感 分类 方法 | ||
本发明属于自然语言处理领域,提供了一种基于改进LSTM的商品评论细粒度情感分类方法,包括:编写爬虫脚本,抓取电商网站商品评论数据,并对数据进行数据预处理;使用结巴分词工具对清洗后的数据进行分词;使用gensim自然语言处理包的word2vec进行词向量的训练,获得评论数据对应的词向量;将已有情感词库作为种子词库,根据词向量的相似度来扩充情感词库;从评论中提取出主题词与情感词;构建情感分类模型,将商品评论主题词与情感词对应的词向量序列导入模型,对商品评论进行情感分类。本发明提供了一种基于改进LSTM的商品评论细粒度情感分类方法,运用深度学习的知识充分挖掘商品评论中的情感倾向性,从而提高商品评论情感分类的准确度。
技术领域
本发明涉及自然语言处理技术领域,尤其是一种基于改进LSTM的商品评论细粒度情感分类方法。
背景技术
近年来,随着互联网的快速发展,各大社交媒体、论坛、京东、淘宝网等网络购物平台汇聚了大量的线上用户。根据第44次《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网络购物用户规模达6.39亿,较2018年底增长2871万,占网民整体的74.8%,网络购物与互联网支付已成为网民使用比例较高的应用。比起商家的主观描述,人们在网上购买某种商品的时候更愿意通过买家的评论这种客观信息来了解商品的详细情况,而电商平台的卖家也可以通过这些评论来了解人们对某个或某种商品的看法,从而判断商品存在哪些问题,制定合理的销售策略。面对如此庞大的评论文本信息,通过人工获取评论的情感倾向是一件特别费时费力的事情,因此,如何利用人工智能技术以及自然语言处理领域的相关技术对评论文本的情感倾向进行自动地挖掘与分析是一件非常重要的任务。
情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,情感分类根据文本所表达的含义和情感信息将文本划分为褒义的或贬义的两种或几种类型,是对文本表示情感倾向性和观点态度的划分。传统情感分类主要有基于情感词典的和基于机器学习的情感分类方法。基于情感词典的情感分类方法通过使用情感词典如HowNet进行语义分析,并根据最终的得分来判断文本的褒贬倾向。得分为正,则文本表示正面的情感,得分为负,则文本表示负面的情感。通过情感词典进行情感分类的缺点是过度的依赖情感词典本身,并且不同领域之间的差别很大,成熟的中文情感词典是有限的,使用范围比较局限可移植性较差。通过机器学习进行情感分类主要有朴素贝叶斯分类算法、最大熵算法与支持向量机等,但是这些方法需要含有大量带标记的数据集,从褒义的评论数据中选择积极的特征,从消极的评论数据中选择消极的特征。
发明内容
为了解决现有成熟的情感词典的缺少以及情感分类模型可移植性差和需要大量人工标注数据集的不足,本发明提供一种基于改进LSTM(长短期记忆网络)的商品评论细粒度情感分类方法,而且结合深度神经网络模型,可以提取文本深层的情感信息,提升情感分类的精度。
本发明解决其技术问题所采用的技术方案是:将自然语言处理领域的文本处理技术引入到情感分类模型中,并结合深度学习的技术提升情感分类的准确率。通过使用Word2Vec算法训练词向量,将商品评论文本通过词向量的表达,将文本的概念空间转化为可计算空间,通过计算两个词向量之间的欧氏距离求得相似度。通过将主题词与情感词对应的词向量输入到情感分类器中进行训练,最终得出商品评论的情感倾向。
一种基于改进LSTM的商品评论细粒度情感分类方法,包括以下步骤:
步骤1:将商品评论数据从电商网站抓取下来,商品评论数据包含商品ID、商品类别、商品名称、商品评论内容和评论时间,将部分商品评论数据标注为积极类别与消极类别,并将标注好的数据分为训练集与测试集;
步骤2:对商品评论数据进行数据清洗,将一些对情感分类无用的标点符号进行删除,对商品评论进行分词;
步骤3:将步骤2中的每个分词转换为词向量,构建每个词对应的词向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911173494.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于动态字段的查询报表生成方法
- 下一篇:一种亚光光学扩散膜及其制备方法