[发明专利]基于文本分析的停电原因识别系统有效

申请号：	201610209966.5	申请日：	2016-04-05
公开（公告）号：	CN105930347B	公开（公告）日：	2017-05-10
发明（设计）人：	李虎;程树华;牛良涛;王伟凯;吴文先;徐进澎;嵇望	申请（专利权）人：	浙江远传信息技术股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06N5/04
代理公司：	浙江永鼎律师事务所33233	代理人：	陆永强
地址：	310007 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于文本分析停电原因识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及模式识别领域，尤其涉及了基于文本分析的停电原因识别系统。

技术背景

目前在大数据的1.8万亿GB容量中，非结构化数据占到了八九成左右，并且预计到2020年将以44倍的发展速度增长。如何有效管理、挖掘、分析海量非结构化数据中蕴藏的信息，已成为大数据领域的重要挑战。在非结构化数据中，文本数据占据了重要地位。对于拥有大量文本数据的企业，如何有效利用这部分数据资源决定着企业将来的发展。在电力行业客服中心的数据中，如何对投诉工单中的频繁停电数据进行处理，从而找出相应的停电原因，这对改善电力行业的内部管理和提高客户满意度起到了至关重要的作用。

现有的专利文献包括：专利申请号为201210281754.X的中国专利申请“一种智能开关柜故障诊断系统及方法”，专利申请号为201110281938.1的中国专利申请“一种主观文本和客观文本分类方法及装置”。

专利申请号为201210281754.X的中国专利申请存在以下不足：该文提出了一种智能开关柜故障诊断系统及方法，该系统采用的是机器学习算法维护专家系统规则库的方法，但此方法并没有考虑到专家系统规则库建立的不完备性，其识别性能准确性取决于规则库里的规则是否具有代表性。该方法并未对没有被该系统识别出来的故障进行判断输出，只考虑输出现有系统中能够被规则库匹配的故障。该方法只通过完善规则库来提高系统的性能，因此系统的性能很大程度上取决于规则库的完备性。

专利申请号为201110281938.1的中国专利申请存在以下不足：该文提出了一种主观文本和客观文本的分类方法及装置，该系统采用机器学习算法进行分类识别，但此方法只能识别出单个标签，无法对一个文本识别出多个标签。故此方法只适用于输出单一标签的情况。

然而在大数据处理方式还未全面普及的当下，电力行业客服中心的分析人员采用的是人工从频繁停电的文本数据中提取停电原因，然后再对处理得到的结果进行数据分析。这种方法在数据量小的时候有一定的可行性。但由于全部是人工得到的，故其结果质量可能会因为长时间的枯燥工作而有一定的损失。由于当今的数据量越来越大，这种人工操作的形式存在耗时长、劳动力投入量大、结果质量会因工作时长而发生较大变动等问题。在对停电原因进行责任划分时，也会因为处理人员的不同看法导致结果无法统一。

从每条工单找出其中的停电原因，这一过程的本质就是分类。目前可以用来对文本数据进行分类的主流技术有基于机器学习分类的文本分类技术以及基于专家系统的文本分类技术。然而由于每条频繁停电的文本数据中包含多条停电原因。这对于传统的机器学习分类算法是一个巨大挑战，因为传统的机器学习分类算法只能识别单个停电原因。而专家系统存在专家规则提取不易且在规则比较多时其搜索效率十分低下等问题，因此传统的专家规则系统也无法完全用来解决多条停电原因的识别问题。

发明内容

本发明针对现有技术中分析效率低下的缺点，提供了基于文本分析的停电原因识别系统。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

基于文本分析的停电原因识别系统，包括数据库和处理器，数据库中记录有由客服人员在提供客户服务时针对停电投诉而记录产生的停电数据，处理器内设有文本分拆与过滤专家系统模块、根因识别专家系统模块和HDSP识别模块；

文本分拆与过滤专家系统模块对停电数据进行文本分拆与过滤并使分拆与过滤后的每条停电数据有且仅有一个停电原因，文本分拆与过滤专家系统模块包括文本分拆单元和过滤专家系统单元，文本分拆单元将停电数据依次通过逗号、句号和分号进行逐层拆分，过滤专家系统单元将分拆后的停电数据进行过滤并去除与停电原因无关的数据；

根因识别专家系统模块从分拆过滤后的停电数据提取共性规则，并通过共性规则对停电数据进行分析并得出识别文本；

HDSP识别模块将文本分拆与过滤专家系统模块和根因识别专家系统模块进行分析而未被识别的停电数据进行二次分析得并到识别文本。

作为优选，根因识别专家系统模块还包括规则获取单元、规则库和事实库；

规则获取单元对经过分拆和过滤的停电数据提取共性规则，将共性规则的性能参数与预先设置在规则库内的第一阈值进行比较，当共性规则的性能参数识别的准确率高于第一阈值的准确率时，再将该共性规则的性能参数与事实库内的第二阈值进行准确率比较，若该共性规则的性能参数的准确率高于第二阈值的准确率，反之，则继续优化该共性规则；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江远传信息技术股份有限公司，未经浙江远传信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610209966.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于文本分析的停电原因识别系统有效

专利文献下载