[发明专利]一种基于文本分类技术和决策树的投诉倾向判断方法有效

专利信息
申请号: 201711346831.4 申请日: 2017-12-15
公开(公告)号: CN107992609B 公开(公告)日: 2021-05-18
发明(设计)人: 黄剑文;徐晖;冯歆尧;彭泽武;温柏坚;杨朝谊;伍江瑶;万婵;党笠;丘荣恭 申请(专利权)人: 广东电网有限责任公司信息中心
主分类号: G06F16/215 分类号: G06F16/215;G06F16/2457;G06F16/28;G06F16/35;G06F40/289;G06Q30/00;G06Q50/06
代理公司: 广东广信君达律师事务所 44329 代理人: 徐嵩;杨晓松
地址: 510000 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于文本分类技术和决策树的投诉倾向判断方法,包括下述步骤:从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;确定获取用户信息的时间窗;确定预判周期及用于预判的特征数据集;确定预判群体范围;本发明可以在用户来电时,准确地判别用户的投诉倾向程度,为设计策略库和采取不同的安抚和引导策略提供参考,充分利用从结构化数据提取的客户诉求信息,同时对工单中来电内容的非结构化文本数据经过系统的分析,根据客户的历史来电信息对客户的未来投诉实现事前预测,可以减少客户投诉风险,树立电力公司的良好社会形象。
搜索关键词: 一种 基于 文本 分类 技术 决策树 投诉 倾向 判断 方法
【主权项】:
一种基于文本分类技术和决策树的投诉倾向判断方法,其特征在于,包括下述步骤:步骤1,从数据库管理系统获取用户信息,包括用户档案信息和客服工单信息,并据此建立用户历史来电情况表;步骤1.1,确定获取用户信息的时间窗;步骤1.2,确定预判周期及用于预判的特征数据集;步骤1.3,确定预判群体范围;步骤1.4,确定所需的原数据字段,所述原数据字段包括用户编号、业务类别代码、工单来源代码、来电内容、接通时间和挂机时间;步骤2,将用户历史来电情况表输入分析计算平台并进行数据预处理,得到模型数据集;步骤2.1,根据原数据字段构造所需变量;步骤2.2,数据质量检查;步骤2.3,数据清洗,所述数据清洗包括异常值处理和缺失值处理,并输出数据质量良好的历史来电情况表;步骤2.4,训练集计算;步骤2.5,数据变换,将连续型变量转换为离散型数据;步骤3,制定越级分类规则对全量训练集的用户进行投诉倾向判断;所述越级分类规则为:TYPE=1if12398or12345TYPE=0ifnot12398andnot12345,]]>其中TYPE为用户类别,为1时表示越级投诉群体,为0时表示非越级投诉群体;步骤4,基于历史来电数据,根据越级分类规则对用户进行类别区分,将用户分为越级投诉倾向群体和非越级投诉倾向群体两大类,其中,越级投诉倾向群体为12398、12345历史来电行为客户群体;非越级投诉群体为历史来电行为特征未通过12398和12345来电的群体;步骤5,针对所述越级投诉倾向群体,在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉数据集;步骤5.1,根据客服工单信息表中工单来源代码,判断用户来电历史途径是否为12398或12345;SUM(CASE WHEN GDLYDM='06'THEN 1 ELSE 0 END)SUM(CASE WHEN GDLYDM IN('07','08','13')THEN 1 ELSE 0 END)其中“GDLYDM”表示“工单来源代码”,“06”表示12398来电;“07”、“08”、“13”均表示12345来电;步骤6,制定文本分类规则对所述步骤5中获得的非越级投诉数据集进行投诉倾向判断;步骤7,运用文本分类进行识别、匹配,识别来电内容包含特殊字眼的用户群体;步骤7.1,剔除非文字信息;步骤7.2,剔除停用词;步骤7.3,文本切分词;步骤7.4,构建情感词典;步骤7.5,词匹配,根据构建的情感词典,使用词语文本匹配的方法找出来电内容包含特殊字眼的客户群体;步骤8,针对来电内容包含特殊字眼群体,则该类群体在下一个预判周期内的类别标记为“投诉高倾向”,同时得到非越级投诉、历史工单无特殊字眼的数据集;步骤9,根据所述步骤8中获得的非越级投诉、历史工单无特殊字眼的数据集,制定决策树分类规则,对非越级投诉、历史工单无特殊字眼的用户进行投诉倾向判断;步骤10,进行特征选择,在特征选择后的训练集上执行决策树算法,确定投诉倾向预测模型,输出投诉风险标签;步骤10.1,所述特征选择可分为业务类别特征、电话拨打行为特征、回访特征和回复特征四大维度;所述业务类别特征,是指用户历史不同业务办理类型的来电情况,包括故障报修次数、咨询次数、举报次数、建议次数、意见次数和投诉次数六个类型;所述电话拨打行为特征,是指用户历史来电的拨打行为,主要为来电拨打时长;所述回访特征,是指用户来电后工单处理情况回访结果,包括回访不满意次数和是否存在回访投诉两个类型;所述回复特征,是指用户对于工单处理的回复结果,主要为客户回复满意度;客户回复满意度能够反应客户本次电话事件的问题解决程度,直接关系到客户投诉倾向的程度,客户回复满意度主要包括回复不满意次数、回复满意次数和回复非常满意次数;步骤10.2,构造决策树,对各特征值的取值范围作定义;利用ID3算法构造决策树,选择公式进行给定样本所需的期望信息计算;I(S1,S2,...Sm)=-Σi=1mpilog2pi,]]>其中,I为给定样本的期望值,S是s个数据样本的集合,即S指的是一个数据集合,其中包含s个数据样本,假定类标号属性具有m个不同值,定义m个不同类Ci(i=1,2,3,…,m),设Si是类Ci的样本数,Pi是任意样本属于Ci的概率,一般可用Si,s来估计;根据以下公式计算熵值:E(A)=-Σj=1vS1j+S2j+...+SmjSI(S1,S2,...,Sm),]]>其中,E(A)为各个特征的熵值,Sij是子集Sj中类Ci的样本数;最后计算各个特征的信息增益,由期望信息和熵值可以得到相应的信息增益值;对于在分支上将获得的信息增益可以由以下公式得到:Gain(A)=I(S1,S2,…,Sm)‑E(A),其中,Gain(A)为各个特征的信息增益;步骤10.3,基于上述计算得出各个特征的信息增益,最终确定特征包括拨打时长、回访不满意次数、投诉次数和是否存在回访投诉,进而得出决策树;步骤10.4,提取分类规则,得出投诉风险标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司信息中心,未经广东电网有限责任公司信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711346831.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top