[发明专利]用户偏好趋势挖掘方法有效
申请号: | 201811395964.5 | 申请日: | 2018-11-22 |
公开(公告)号: | CN109460474B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 王安宁;张强;杨善林;赵爽耀;陆效农;彭张林 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 翟姝红 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 偏好 趋势 挖掘 方法 | ||
1.一种用户偏好趋势挖掘方法,其特征在于,包括:
S1、从评论数据中获取多个产品属性;
S2、将所述评论数据划分为多个时间阶段,分别计算所述多个时间阶段中所述多个产品属性的重要性;
S3、根据决策树分类模型识别出所述多个时间阶段的关键产品属性及非关键产品属性;
S4、对所述关键产品属性的观点进行识别;
S5、对所述非关键产品属性的重要性变化趋势进行分类;
所述S2包括:
将在所述评论数据包含的满意评论中的产品属性的情感类别标示为正面,将在所述评论数据包含的不满意评论中的产品属性的情感类别标示为负面,得到所述多个产品属性情感类别;
获取用户打分评价,并将所述用户打分评价划分为高、中、低三个类别;
根据所述打分评价的类别及所述多个产品属性情感类别,确定所述多个产品属性中每个产品属性对于客户满意的影响;
所述根据所述打分评价的类别及所述产品属性情感类别,确定每个所述产品属性对于客户满意的影响包括:
初始信息熵如下:
其中,表示所述评论数据集S中的类变量的概率,k表示类变量值的个数,从所述多个产品属性选取一个特定产品属性,根据属性变量的取值划分为n个子数据集,该特定产品属性的每个唯一值的信息熵的总和,如下所示:
;
其中,表示训练数据S的子集,包含属性的互斥结果值,将信息增益作为属性选择的度量,属性提供的类变量不确定性的减少量,属性的越低,增益越高,如下公式:
;
所述S5包括:
根据Mann-Kendall检测判断属性重要性变化趋势,将所述多个产品属性分为增值属性、过时属性和稳定属性。
2.根据权利要求1所述的方法,其特征在于,所述S1包括:
采用POS词性标记方法从所述评论数据中提取产品属性关联词语;
从所述产品属性关联词语中去除非属性后,进行同义词合并,生成产品属性词典;
依据生成的属性词典,识别所述评论数据中每条评论提及的产品属性,得到所述多个产品属性。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述多个时间阶段包括下一时间段,所述分别计算所述多个时间阶段中所述多个产品属性的重要性包括:
预测下一时间阶段产品属性的重要性。
4.根据权利要求3所述的方法,其特征在于,所述预测下一时间阶段产品属性的重要性包括:
采用Holt-Winters指数平滑模型预测所述下一时间阶段的客户偏好,根据加权平均及时间序列中数据趋势和季节性成分,将具有线性趋势、季节变动和随机变动的时间序列进行分解,并结合指数平滑法对属性重要性进行第k步预测,分别对长期趋势、趋势增量和季节变动做出估计,k步提前预测模型定义为:
其中,水平成分表示为:
趋势成分表示为:
季节性成分表示为:
其中,表示近期时间段t时刻的数据点,表示超过的第k节时间段的预测值,有,s表示季节性频率,平滑参数,和都在[0,1]范围内,并通过最小化前一个时间段步长的误差平方和来估计。
5.根据权利要求1所述的方法,其特征在于,所述S3包括:
根据产品属性的信息增益,根据决策树模型迭代生成分类规则,出现在所述分类规则中的产品属性为关键产品属性,未出现在所述分类规则中的产品属性为非关键产品属性。
6.根据权利要求1所述的方法,其特征在于,所述S4中对所述关键产品属性的观点进行识别包括:
根据点互信息PMI挖掘所述多个产品属性的观点,PMI用于衡量两个变量之间的相关性,计算公式如下:
其中,表示产品属性与属性观点共同出现的概率,表示产品属性出现的概率,表示观点出现的概率;
根据PMI值的大小从所述评论数据中识别出所述多个产品属性中每个产品属性的客户观点。
7.根据权利要求1所述的方法,其特征在于,所述根据Mann-Kendall检测判断属性重要性变化趋势,将所述多个产品属性分为增值属性、过时属性和稳定属性包括:
统计量S计算如下:
其中,n表示时间序列数据点的总数,表示前一时刻数据得到的信息增益,表示当前数据得到的信息增益;
标准化统计量S,按照如下公式:
统计量Z服从标准正态分布,如果p值小于显著性水平,则存在变化趋势,如果Z为负值则为增值属性,如果Z为正值则为过时属性,如果p值大于显著性水平则为稳定属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811395964.5/1.html,转载请声明来源钻瓜专利网。