[发明专利]一种基于文本分类技术和决策树的投诉倾向判断方法有效
申请号: | 201711346831.4 | 申请日: | 2017-12-15 |
公开(公告)号: | CN107992609B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 黄剑文;徐晖;冯歆尧;彭泽武;温柏坚;杨朝谊;伍江瑶;万婵;党笠;丘荣恭 | 申请(专利权)人: | 广东电网有限责任公司信息中心 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2457;G06F16/28;G06F16/35;G06F40/289;G06Q30/00;G06Q50/06 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 徐嵩;杨晓松 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 分类 技术 决策树 投诉 倾向 判断 方法 | ||
1.一种基于文本分类技术和决策树的投诉倾向判断方法,其特征在于,包括下述步骤:
步骤1,从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;
步骤1.1,确定获取用户信息的时间窗;
步骤1.2,确定预判周期及用于预判的特征数据集;
步骤1.3,确定预判群体范围;
步骤1.4,确定所需的原数据字段,所述原数据字段包括用户编号、业务类别代码、工单来源代码、来电内容、接通时间和挂机时间;
步骤2,将用户历史来电情况表输入分析计算平台并进行数据预处理,得到模型数据集;
步骤2.1,根据原数据字段构造所需变量;
步骤2.2,数据质量检查;
步骤2.3,数据清洗,所述数据清洗包括异常值处理和缺失值处理,并输出数据质量良好的历史来电情况表;
步骤2.4,训练集计算;
步骤2.5,数据变换,将连续型变量转换为离散型数据;
步骤3,制定越级分类规则对全量训练集的用户进行投诉倾向判断;
所述越级分类规则为:
其中TYPE为用户类别,为1时表示越级投诉群体,为0时表示非越级投诉群体;
步骤4,基于历史来电数据,根据越级分类规则对用户进行类别区分,将用户分为越级投诉倾向群体和非越级投诉倾向群体两大类,其中,越级投诉倾向群体为12398、12345历史来电行为客户群体;非越级投诉群体为历史来电行为特征未通过12398和12345来电的群体;
步骤5,针对所述越级投诉倾向群体,在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉数据集;
步骤5.1,根据客服工单信息表中工单来源代码,判断用户来电历史途径是否为12398或12345;
SUM(CASE WHEN GDLYDM='06'THEN 1 ELSE 0 END)
SUM(CASE WHEN GDLYDM IN('07','08','13')THEN 1 ELSE 0 END)
其中“GDLYDM”表示“工单来源代码”,“06”表示12398来电;“07”、“08”、“13”均表示12345来电;
步骤6,制定文本分类规则对所述步骤5中获得的非越级投诉数据集进行投诉倾向判断;
步骤7,运用文本分类进行识别、匹配,识别来电内容包含特殊字眼的用户群体;
步骤7.1,剔除非文字信息;
步骤7.2,剔除停用词;
步骤7.3,文本切分词;
步骤7.4,构建情感词典;
步骤7.5,词匹配,根据构建的情感词典,使用词语文本匹配的方法找出来电内容包含特殊字眼的客户群体;
步骤8,针对来电内容包含特殊字眼群体,则该类群体在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉、历史工单无特殊字眼的数据集;
步骤9,根据所述步骤8中获得的非越级投诉、历史工单无特殊字眼的数据集,制定决策树分类规则,对非越级投诉、历史工单无特殊字眼的用户进行投诉倾向判断;
步骤10,进行特征选择,在特征选择后的训练集上执行决策树算法,确定投诉倾向预测模型,输出投诉风险标签;
步骤10.1,所述特征选择可分为业务类别特征、电话拨打行为特征、回访特征和回复特征四大维度;
所述业务类别特征,是指用户历史不同业务办理类型的来电情况,包括故障报修次数、咨询次数、举报次数、建议次数、意见次数和投诉次数六个类型;
所述电话拨打行为特征,是指用户历史来电的拨打行为,为来电拨打时长;
所述回访特征,是指用户来电后工单处理情况回访结果,包括回访不满意次数和是否存在回访投诉两个类型;
所述回复特征,是指用户对于工单处理的回复结果,为客户回复满意度;客户回复满意度能够反应客户本次电话事件的问题解决程度,直接关系到客户投诉倾向的程度,客户回复满意度包括回复不满意次数、回复满意次数和回复非常满意次数;
步骤10.2,构造决策树,对各特征值的取值范围作定义;
利用ID3算法构造决策树,选择公式进行给定样本所需的期望信息计算;
其中,I为给定样本的期望值,S是s个数据样本的集合,即S指的是一个数据集合,其中包含s个数据样本,假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,3,…,m),设Si是类Ci的样本数,Pi是任意样本属于Ci的概率,用Si,s来估计;
根据以下公式计算熵值:
其中,E(A)为各个特征的熵值,Sij是子集Sj中类Ci的样本数;
最后计算各个特征的信息增益,由期望信息和熵值可以得到相应的信息增益值;对于在分支上将获得的信息增益可以由以下公式得到:
Gain(A)=I(S1,S2,…,Sm)-E(A),
其中,Gain(A)为各个特征的信息增益;
步骤10.3,基于上述计算得出各个特征的信息增益,最终确定特征包括拨打时长、回访不满意次数、投诉次数和是否存在回访投诉,进而得出决策树;
步骤10.4,提取分类规则,得出投诉风险标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司信息中心,未经广东电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711346831.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带支撑架的笔记本电脑C壳
- 下一篇:一种具有除尘结构的笔记本电脑C壳