[发明专利]一种基于机器学习的商品评论数据的情感分析方法在审

专利信息
申请号: 201711376954.2 申请日: 2017-12-19
公开(公告)号: CN108062304A 公开(公告)日: 2018-05-22
发明(设计)人: 沈琦;程翔 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27;G06Q30/02
代理公司: 北京汇信合知识产权代理有限公司 11335 代理人: 夏静洁
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 机器 学习 商品 评论 数据 情感 分析 方法
【说明书】:

发明公开了一种基于机器学习的商品评论数据的情感分析方法,包括:商品评论数据的采集和抽取;数据预处理,预处理包括文本去重、机械压缩去词和短句删除;基于结巴分词方法对预处理的数据进行文本分词;构建情感分析模型:基于神经网络语言模型NNLM训练生成词向量,构建语义网络;基于LDA主题模型进行语义挖掘,无监督的生成主题。本发明实现无监督的情感分析方法,结果表明,这样的情感分析方式能够有效的分析用户的评论情感。

技术领域

本发明涉及评论数据情感分析技术领域,尤其涉及一种基于机器学习的商品评论数据的情感分析方法。

背景技术

伴随着电商发展的同时,是大量的用户数据日以继夜的增长,这些数据虽然是在存储和维护上带来了很多企业成本和技术难度,但是其中隐含的商业价值却是不可估量的,这些电商数据中,最能直观反映用户对商品以及电商平台的看法的数据就是商品的评论数据了,这些数据不仅仅可以反映出用户对于产品的意见,同时也可以将用户的情感信息提取出来,用来为更多的用户以及电商平台提供商业参考价值,对商品的推荐,产品的改进以及同类产品相互之间的对比提供一个方式。

对评论数据情感分析的方法与过程目前的流程主要是包括四个阶段,第一阶段是对商品评论数据的采集与抽取工作,这个阶段主要是采用适用于相应电商的爬虫工具对用户的商品评论数据进行采集工作,并且将数据存储为事先设计好的格式;第二阶段是数据探索与预处理阶段,对采集到的数据进行文本去重,机械压缩,短句删除,使数据成为可以使用的数据集,为后续的工作过滤掉众多垃圾信息;第三阶段是文本评论的分词,对中文文本的分词现阶段主要有4种方式:

字符串匹配算法,需要将带分文本与字典中的词匹配来分词;这种分词方法速度快,实现起来也很简单,但是歧义词字典未录入词处理不好,例如长春市/长春/药店和长春/市长/春药/店;

基于理解的算法,模拟现实中人对于句子的理解效果来分词;这类分词方法比较复杂,需要大量的语言知识作为支持;

基于机器学习的算法,用已经分好词的文本来训练数据集;缺点就是需要大量的人工标注过的数据来对训练统计模型,速度较慢,耗费人力;

基于统计的方法:基于统计的方法认定相邻字共同出现的次数越多,成为词的概率越大,以此为标准来进行分词;无需词典以及聚类训练,只需对语料中的字组频率进行统计。

合理的分词对于之后数据建模的效果影响很大,中文词以及词组之间的界限比较模糊,往往分词阶段就成了文本情感分析与主题提取的重点,因此根据数据集的特征而选择合适的分词方式显得尤为重要;第四阶段就是构建情感模型阶段,此阶段主要是将问题转化为机器学习问题,使用数据进行训练,生成情感倾向模型,然后为了深入了解哪些问题是用户所满意或者不满意的,需要对语义分析后的数据进行潜在狄利克雷分配(LDA)主题构建,寻找到正面或者负面的潜在主题,然后对产品进行相应方面的改进或对电商平台进行完善。

如今对于中文短文本的情感分析,大多是基于中文分词的基础上进行的,但是中文在使用中会存在一些反问或者双重否定等修辞手法,例如:“不是不可以”,“为什么这么多人都觉得好啊”,或者前半段表否定,后半段表肯定的一些复杂语义句式:“质量不好,外观也不好看,但总体还是很实惠的。”,对也这些发杂一些的中文句式,使用大多数的情感丰富方法往往都会得出一些中立的甚至相反的结果,对于情感模型的产生会产生较大的偏值影响,中文往往语义重要性要大于文字本身。

因此仅仅通过简单的中文分词以及对于这些词构建神经网络只能简单的分析短文本评论的字面语义,但是评论文本的整体语义却丢失了他本身的信息量,甚至于产生的结果与句子本意是相反的态度。

发明内容

针对上述问题中存在的不足之处,本发明提供一种基于机器学习的商品评论数据的情感分析方法。

为实现上述目的,本发明提供一种基于机器学习的商品评论数据的情感分析方法,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711376954.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top