[发明专利]一种基于Spark的海量电力客服文本分类方法在审

申请号：	201710803201.9	申请日：	2017-09-08
公开（公告）号：	CN107506475A	公开（公告）日：	2017-12-22
发明（设计）人：	李彬;邬庆莉;李钊;陈亮;陈硕;唐胜;谢玉波;曹健;李强;杨智斌;秦鹏飞	申请（专利权）人：	国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06Q50/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	110006 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 spark 海量电力客服文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Spark的海量电力客服文本分类方法，其特征是：针对业务场景，比较了多个公开的情感词典，选择知网情感词典为基础，并根据电力客服领域的特点，针对性地选取了上百个词串，构建出了适用于电力客服文本分类的情感词典。

2.根据权利要求1所述，一种基于Spark的海量电力客服文本分类方法，其特征是：结合IKAnalyzer分词器，运用“正向迭代最细粒度切分算法”，根据业务场景需求，控制好分词的粒度，例如文本“仙女镇花园小区3幢2单元101室交错电费”，分词后文本是“仙女镇”“花园”“小区”“3幢”“2单元”“101室”“交错”“电费”，而不是“仙女”“镇”“交”“错”，因为这样的分词粒度过分的细，失去了分类的必要性和价值。

3.根据权利要求2所述，一种基于Spark的海量电力客服文本分类方法，其特征是：完成分词后，每个词都可以作为单独的特征，然而我们需要将中文的词汇转变成双精度类型的数值来表现；通常情况下，我们运用这个词汇的TF-IDF值当作特征值，该方法为文本中的各个词汇运算出两个数值：一个是词频(TF)，即各个词汇在文本中存在的次数，另一个是逆文档频率(IDF)，用来判断某个词在整个文档语料库中呈现的频繁水平；这两个值的乘积，也就是TF*IDF，表示了一个词与某个文本的相关程度；Spark的MLlib里存在两个方法能够得出TF-IDF，分别是HashingTF和IDF；HashingTF能够单次运行在某个文本里，同时也能够应用在全部的RDD中；它需要每个文本都运用对象的可迭代序列来体现。

4.根据权利要求3所述，一种基于Spark的海量电力客服文本分类方法，其特征是：根据贝叶斯定理的原理，我们需要求出分类类别的先验概率和调整因子(也称作“可能性函数”)，Naive Bayes分类器是一种统计学分类引擎，构筑在已经存在的结果上，因此必须要有多组已经辨认完成的文本，例如：“客户投诉”、“客户求助”、“客户建议”、“紧急预警”等分组；然后用这些分组，对分类器训练。

5.根据权利要求4所述，一种基于Spark的海量电力客服文本分类方法，其特征是：Multinomial Naive Bayes模型假设各个特征之间条件独立，为算法的并行化提供了有力的条件；结合Spark的并行计算框架，得出电力客户服务分类模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司，未经国网辽宁省电力有限公司;国网辽宁省电力有限公司电力科学研究院;江苏瑞中数据股份有限公司;国家电网公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710803201.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于对象映射的数据库操作方法及装置
下一篇：用户行为数据收集分析系统及分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Spark的海量电力客服文本分类方法在审

专利文献下载