[发明专利]基于NLP技术的电费通知与催收客户诉求的分类方法、系统及存储介质在审
申请号: | 201911395991.7 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111177389A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 姜磊;杨钊;赖招展;徐东;胡春桃;田永海;朱振航;何慧;沈广盈;屈吕杰 | 申请(专利权)人: | 佰聆数据股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289;G06F40/253;G06K9/62;G06Q30/00;G06Q50/06 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 林梅繁 |
地址: | 510663 广东省广州市高新技术产业开*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nlp 技术 电费 通知 催收 客户 诉求 分类 方法 系统 存储 介质 | ||
1.基于NLP技术的电费通知与催收客户诉求的分类方法,其特征在于,包括以下步骤:
S1、梳理分类知识图谱,搭建出符合实际需要的分类框架;基于分类框架,将电费类客服工单由人工进行分类,分析客户投诉的原因,标注历史电费类客服工单,经过分类模型的迭代运算,提炼出分类规则;
S2、对拟分类的电费类客服工单进行文本清洗;
S3、构造专业词库对清洗后的电费类客服工单进行文本分词;
S4、利用TF-IDF算法表示电费类客服工单的文本向量;
S5、基于信息论,采用信息增益法筛选文本向量的有效特征;
S6、采用SVM支持向量机算法对工单进行分类。
2.根据权利要求1所述的分类方法,其特征在于,步骤S1中分类知识图谱为由电费类客服工单各级分类层级连接起来的分类架构;每个电费类客服工单对应四级分类,分别是:责任部门、专业分类、诉求事件、差错点。
3.根据权利要求1所述的分类方法,其特征在于,步骤S3中基于电网行业专业词汇,通过人工构建专业词库,结合分词算法,借助人为经验,从电费类客服工单提炼并补充语料库中缺少的专业词汇,以实现未登录词的准确分词。
4.根据权利要求1所述的分类方法,其特征在于,步骤S4中用TF-IDF法进行中文词向量转化,过程如下:
在某个电费类客服工单中某词条出现的次数比电费类客服工单的词语数量,作为词频TF归一化公式:
计算逆向文档频率IDF,获得在某一类电费类客服工单中出现得多而在其他电费类客服工单中出现得少的词作为该类电费类客服工单的主题:
最后计算词频-逆向文档频率为:
TF-IDF=TF*IDF
从而通过对每条电费类客服工单中的每个词汇特征计算其TF-IDF值,完成对词汇特征的赋值,最终完成电费类客服工单的词向量化过程。
5.根据权利要求1所述的分类方法,其特征在于,步骤S5在筛选有效特征时,对电费类客服工单中出现的每个词计算其信息增益,并设定一个阈值,从特征空间中移除那些信息增益低于该设定阈值的词条,然后按照增益值从高到低的顺序选择特征组成特征向量。
6.根据权利要求1所述的分类方法,其特征在于,步骤S6中使用线性支持向量机。
7.基于NLP技术的电费通知与催收客户诉求的分类系统,其特征在于,包括:
分类知识图谱及历史电费类客服工单标注模块,用于梳理分类知识图谱,搭建出符合实际需要的分类框架;基于分类框架,将电费类客服工单由人工进行分类,分析客户投诉的原因,标注历史电费类客服工单,经过分类模型的迭代运算,提炼出分类规则;
文本清洗模块,用于对拟分类的电费类客服工单进行文本清洗;
文本分词模块,用于构造专业词库对清洗后的电费类客服工单进行文本分词;
文本向量转化模块,利用TF-IDF算法表示电费类客服工单的文本向量;
特征筛选模块,基于信息论,采用信息增益法筛选文本向量的有效特征;
分类模块,采用SVM支持向量机算法对工单进行分类。
8.根据权利要求7所述的分类系统,其特征在于,所述分类知识图谱为由电费类客服工单各级分类层级连接起来的分类架构;每个电费类客服工单对应四级分类,分别是:责任部门、专业分类、诉求事件、差错点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佰聆数据股份有限公司,未经佰聆数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911395991.7/1.html,转载请声明来源钻瓜专利网。