[发明专利]一种基于Spark的海量电力客服文本分类方法在审

专利信息
申请号: 201710803201.9 申请日: 2017-09-08
公开(公告)号: CN107506475A 公开(公告)日: 2017-12-22
发明(设计)人: 李彬;邬庆莉;李钊;陈亮;陈硕;唐胜;谢玉波;曹健;李强;杨智斌;秦鹏飞 申请(专利权)人: 国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06Q50/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 110006 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 海量 电力 客服 文本 分类 方法
【权利要求书】:

1.一种基于Spark的海量电力客服文本分类方法,其特征是:针对业务场景,比较了多个公开的情感词典,选择知网情感词典为基础,并根据电力客服领域的特点,针对性地选取了上百个词串,构建出了适用于电力客服文本分类的情感词典。

2.根据权利要求1所述,一种基于Spark的海量电力客服文本分类方法,其特征是:结合IKAnalyzer分词器,运用“正向迭代最细粒度切分算法”,根据业务场景需求,控制好分词的粒度,例如文本“仙女镇花园小区3幢2单元101室交错电费”,分词后文本是“仙女镇”“花园”“小区”“3幢”“2单元”“101室”“交错”“电费”,而不是“仙女”“镇”“交”“错”,因为这样的分词粒度过分的细,失去了分类的必要性和价值。

3.根据权利要求2所述,一种基于Spark的海量电力客服文本分类方法,其特征是:完成分词后,每个词都可以作为单独的特征,然而我们需要将中文的词汇转变成双精度类型的数值来表现;通常情况下,我们运用这个词汇的TF-IDF值当作特征值,该方法为文本中的各个词汇运算出两个数值:一个是词频(TF),即各个词汇在文本中存在的次数,另一个是逆文档频率(IDF),用来判断某个词在整个文档语料库中呈现的频繁水平;这两个值的乘积,也就是TF*IDF,表示了一个词与某个文本的相关程度;Spark的MLlib里存在两个方法能够得出TF-IDF,分别是HashingTF和IDF;HashingTF能够单次运行在某个文本里,同时也能够应用在全部的RDD中;它需要每个文本都运用对象的可迭代序列来体现。

4.根据权利要求3所述,一种基于Spark的海量电力客服文本分类方法,其特征是:根据贝叶斯定理的原理,我们需要求出分类类别的先验概率和调整因子(也称作“可能性函数”),Naive Bayes分类器是一种统计学分类引擎,构筑在已经存在的结果上,因此必须要有多组已经辨认完成的文本,例如:“客户投诉”、“客户求助”、“客户建议”、“紧急预警”等分组;然后用这些分组,对分类器训练。

5.根据权利要求4所述,一种基于Spark的海量电力客服文本分类方法,其特征是:Multinomial Naive Bayes模型假设各个特征之间条件独立,为算法的并行化提供了有力的条件;结合Spark的并行计算框架,得出电力客户服务分类模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司,未经国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710803201.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top