[发明专利]基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法有效
申请号: | 201710481733.5 | 申请日: | 2017-06-22 |
公开(公告)号: | CN107357837B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 黄佳锋;马志豪;陈鑫;卢昕;薛云;胡晓晖 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F17/27;G06Q30/02 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 江裕强 |
地址: | 510631 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,包括步骤:(1)对电商评论进行预处理和中文分词,计算得到近义词的TF‑IDF权重向量,然后基于保序子矩阵OPSM双聚类算法挖掘出权重向量中的局部模式;(3)使用改进的PrefixSpan算法挖掘分类频繁短语特征,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力;(4)将(2)和(3)步骤挖掘出来的特征转化成0/1向量,作为分类器的输入,最终得到电商评论的情感分类结果。本发明能够准确地挖掘出电商评论的情感分类特征,使潜在消费者在购买商品前了解商品的评价信息,也能使商家更加充分地了解消费者的意见,从而提高服务质量。 | ||
搜索关键词: | 基于 保序子 矩阵 频繁 序列 挖掘 评论 情感 分类 方法 | ||
【主权项】:
1.基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法,其特征在于,包括以下步骤:(1)输入带有情感标签的电商评论数据,对数据进行预处理,并将数据划分成训练集TrainSet、验证集ValidationSet和测试集TestSet;(2)用中文分词工具对步骤(1)得到的TrainSet、ValidationSet、TestSet进行中文分词,将每个评论句子转化成词语序列;(3)结合词语相似度和TF‑IDF对步骤(2)得到TrainSet词语序列进行计算,得到近义词的TF‑IDF权重向量,然后基于保序子矩阵OPSM双聚类算法挖掘出权重向量中的OPSM特征;具体包括:(3‑1)使用词嵌入模型word2vec训练中文大语料,得到词嵌入矩阵其中词嵌入矩阵的每一列代表一个词向量,d表示向量的维度,V表示词表,|V|表示词表规模;(3‑2)计算词语相似度,给定相似度阈值T,假设Xi和Xj是We中两个词向量,计算两个向量的余弦相似度如下式所示:如果Sim(i,j)≥T,则表示Xi和Xj对应的词语是近义词;(3‑3)根据已有的中文情感词典,提取出步骤(1)TrainSet包含的情感特征词集合,并利用步骤(3‑2)将情感特征词集合中的近义词语归并为同一个簇,得到特征词簇,特征词簇数目为c;(3‑4)根据词语相似度改造TF‑IDF,因为语义接近的两个词在情感倾向判断中起的作用是相似的,所以在计算TF‑IDF权值向量时,根据近义特征词簇来计算,把近义词都当作同一个词处理,近义词的TF‑IDF计算公式如下式所示:其中,N表示语料库中的评论总数;tfiJ表示近义词频,即文档J中目标词i与其近义词出现的次数;dfi表示近义词文档频率,即语料库中含有目标词i以及它的近义词的文档个数;根据近义词TF‑IDF将TrainSet转化成矩阵trainNum为训练集评论数;(3‑5)根据保序子矩阵OPSM双聚类,挖掘出步骤(3‑4)得到的矩阵Wtfidf中的OPSM子矩阵,将挖掘得到的OPSM子矩阵中包含的词组称为OPSM特征,从而得到OPSM特征集其中n1为挖掘到OPSM特征个数;(4)将步骤(2)得到TrainSet词语序列转化成数字序列集合,使用改进的PrefixSpan算法挖掘分类频繁短语特征,同时也通过词语间隔限制来提升频繁短语区分情感倾向的能力;具体包括以下步骤:(4‑1)将步骤(1)TrainSet中的每一条评论转化为数字序列,具体的做法是构建一个从词到整数的唯一映射,将每个词替换为对应的整数,得到代表训练集的数字序列集合S;(4‑2)定义分类频繁短语特征,对于一个短语p={w1,w2,...wl,...wm},其中wl为短语p中的词语,m为短语p的词语个数,假如同时满足以下几个特点,那么短语p为分类频繁短语特征:(I)短语p中任意两个相邻词语wl和wl+1在评论中可以不连续,但是一定要在评论中按照先后顺序出现;(II)给定短语p中相邻两个词语在评论中的最大间隔阈值max_gap,那么p中任意两个相邻词语wl和wl+1在评论中的间隔gap l≤max_gap;(III)短语p在训练集TrainSet中的支持度必须大于等于最小支持度,即sup s≥min_sup;(IV)假设短语p在TrainSet中类标签为q的语料中支持度分别为supq s,对于标签为0,1的二分类问题,定义短语p的区分度值conf如下式所示:那么短语p的区分度必须大于等于最小区分度阈值,即conf≥min_conf;(4‑3)将数字序列集合S作为改进的PrefixSpan方法的输入,挖掘得到分类频繁短语特征集其中n2为挖掘到分类频繁短语特征个数;(5)分别匹配步骤(1)得到的TrainSet、ValidationSet、TestSet是否包含步骤(3)(4)得到的OPSM特征和分类频繁短语特征,将TrainSet、ValidationSet、TestSet中的每一条评论转化成0/1向量,并将两种0/1向量进行合并得到最终的特征向量,输出TrainData、ValidationData、TestData;(6)将步骤(5)得到的TrainData、ValidationData、TestData作为分类器的输入,最终得到测试集的情感分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710481733.5/,转载请声明来源钻瓜专利网。