[发明专利]一种基于Spark的海量电力客服文本分类方法在审
申请号: | 201710803201.9 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107506475A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 李彬;邬庆莉;李钊;陈亮;陈硕;唐胜;谢玉波;曹健;李强;杨智斌;秦鹏飞 | 申请(专利权)人: | 国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 110006 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 海量 电力 客服 文本 分类 方法 | ||
1.一种基于Spark的海量电力客服文本分类方法,其特征是:针对业务场景,比较了多个公开的情感词典,选择知网情感词典为基础,并根据电力客服领域的特点,针对性地选取了上百个词串,构建出了适用于电力客服文本分类的情感词典。
2.根据权利要求1所述,一种基于Spark的海量电力客服文本分类方法,其特征是:结合IKAnalyzer分词器,运用“正向迭代最细粒度切分算法”,根据业务场景需求,控制好分词的粒度,例如文本“仙女镇花园小区3幢2单元101室交错电费”,分词后文本是“仙女镇”“花园”“小区”“3幢”“2单元”“101室”“交错”“电费”,而不是“仙女”“镇”“交”“错”,因为这样的分词粒度过分的细,失去了分类的必要性和价值。
3.根据权利要求2所述,一种基于Spark的海量电力客服文本分类方法,其特征是:完成分词后,每个词都可以作为单独的特征,然而我们需要将中文的词汇转变成双精度类型的数值来表现;通常情况下,我们运用这个词汇的TF-IDF值当作特征值,该方法为文本中的各个词汇运算出两个数值:一个是词频(TF),即各个词汇在文本中存在的次数,另一个是逆文档频率(IDF),用来判断某个词在整个文档语料库中呈现的频繁水平;这两个值的乘积,也就是TF*IDF,表示了一个词与某个文本的相关程度;Spark的MLlib里存在两个方法能够得出TF-IDF,分别是HashingTF和IDF;HashingTF能够单次运行在某个文本里,同时也能够应用在全部的RDD中;它需要每个文本都运用对象的可迭代序列来体现。
4.根据权利要求3所述,一种基于Spark的海量电力客服文本分类方法,其特征是:根据贝叶斯定理的原理,我们需要求出分类类别的先验概率和调整因子(也称作“可能性函数”),Naive Bayes分类器是一种统计学分类引擎,构筑在已经存在的结果上,因此必须要有多组已经辨认完成的文本,例如:“客户投诉”、“客户求助”、“客户建议”、“紧急预警”等分组;然后用这些分组,对分类器训练。
5.根据权利要求4所述,一种基于Spark的海量电力客服文本分类方法,其特征是:Multinomial Naive Bayes模型假设各个特征之间条件独立,为算法的并行化提供了有力的条件;结合Spark的并行计算框架,得出电力客户服务分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司,未经国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710803201.9/1.html,转载请声明来源钻瓜专利网。