[发明专利]一种数据分析方法及装置在审
申请号: | 201710333980.0 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107169091A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 宗志远;卢明樊 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分析 方法 装置 | ||
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据分析方法及装置。
背景技术
对于服务型企业,尤其是互联网企业来说,通过分析用户的评论信息能够及时掌握产品的不足以及了解用户需求。根据用户对产品的评论信息,尤其是用户对产品的负面评论信息对产品进行改进和维护,是提升产品用户体验的最佳途径。
在现有技术中,服务型企业普遍重视对用户评论数据的分析,以便从中发现产品问题。常用的分析方法是:获取用户评论数据,对获取的用户评论数据进行文本挖掘,从中查找得到用户对产品故障的评论信息。在用户对产品故障的评论数据中,有用户对产品故障的正面或中性评论数据,也有用户对产品故障的负面评论数据。其中,对用户对产品故障的负面评论数据进行分析,很容易得到对产品改进有益的信息;相反,对用户的正面或中性评论数据进行分析,很难得到对产品改进有益的信息。而在现有技术中,并没有区分用户评论的属性,对所有的用户评论数据都进行分析,其分析效率较低。
发明内容
基于上述现有技术的缺陷和不足,本发明提出一种数据分析方法及装置,采用该方法及装置,能够辨别用户评论数据是否为负面评论数据,从而使得对用户的评论数据进行分析挖掘时,更具有针对性,提高了数据分析效率。
一种数据分析方法,包括:
获取评论数据;
将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
如果所述评论数据是表征产品故障的评论数据,则进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
如果所述评论数据是负面评论数据,则存储所述评论数据。
优选地,所述将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据,包括:
对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
优选地,所述对所述评论数据进行分词处理,得到组成所述评论数据的各个分词,包括:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
优选地,所述对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据,包括:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
优选地,在获取评论数据之后,在将所述评论数据与报障词典中的数据进行对比,判断所述评论数据是否是表征产品故障的评论数据之前,该方法还包括:
对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则将所述评论数据删除。
一种数据分析装置,包括:
数据获取单元,用于获取评论数据;
第一处理单元,用于将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
第二处理单元,用于在所述第一处理单元判断所述评论数据是表征产品故障的评论数据时,进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
数据处理单元,用于在所述第二处理单元判断所述评论数据是负面评论数据时,存储所述评论数据。
优选地,所述第一处理单元,包括:
分词处理单元,用于对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
判断处理单元,用于分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710333980.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置