[发明专利]一种基于语音识别的数据挖掘方法和系统有效
申请号: | 201010295597.9 | 申请日: | 2010-09-27 |
公开(公告)号: | CN102419975A | 公开(公告)日: | 2012-04-18 |
发明(设计)人: | 刘致远 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) 11270 | 代理人: | 蒋雅洁;程立民 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 识别 数据 挖掘 方法 系统 | ||
技术领域
本发明涉及数据挖掘技术,尤其涉及一种基于语音识别的数据挖掘方法和系统。
背景技术
数据挖掘技术是一种用于得到产品反馈信息的主要技术。很多产品(如游戏、应用软件、聊天工具、杀毒软件等)在用户使用后,为了收集用户的反馈信息,都会为用户提供诸多的平台,让用户进行信息反馈,这些平台包括电话投诉中心、投诉网站、客户邮件咨询中心等等。通过对用户的反馈信息进行数据挖掘,可以得到大量有用的信息,如:用户对某产品的售后服务的满意程度,如何改进产品的建议,产品常见问题待解决等等。
目前的数据挖掘主要是对文本数据的挖掘,即利用用户反馈的文本信息进行搜集、整理、数据筛选等处理,以便得到用户反馈的信息成果,例如:可以先通过论坛、投诉邮箱、投诉网站等平台收集大量的反馈信息,再对这些收集的信息进行分类、分析,将分析结果报告给相关人员,相关人员根据报告做出相应的具体策划和针对性处理,最终根据策划和针对性处理来改进相关产品。
随着市场竞争的越来越激烈,不断要求以更快、更方便、更准确的数据挖掘方法来实现对产品反馈信息的收集、分析等处理,以实现对相关产品的更快、更好改进。现有的数据挖掘方法主要有两种,如图1所示,一种是收录用户通过网页、邮件输入的文本信息,根据对这些信息的分析结果做出相应的策划和针对性处理;另一种是通过问卷调查的方式,即用户通过回答问卷来反馈信息,通过对问卷的统计进行信息的挖掘,从而做出相应的策划和针对性处理。
然而,现有的数据挖掘方法都是基于网络渠道的文本信息挖掘,并不涉及到电话/语音方面的语音数据挖掘方案,而电话/语音也是用户比较常用的一种信息反馈方式。由于缺少对语音数据的挖掘方案,因此现有技术无法对用户通过电话/语音反馈的信息进行较好的利用,这也不利于对相关产品的更快、更好改进。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于语音识别的数据挖掘方法和系统,以实现对语音信息的数据挖掘。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种基于语音识别的数据挖掘方法,该方法包括:
从语音文件数据库中提取语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将所述语音文件转换为文本数据;
对转换的文本数据进行数据挖掘,得到最终的可用数据。
所述从语音文件数据库中提取语音文件,具体为:
根据预设的查询条件遍历所述语音文件数据库,提取符合所述查询条件的语音文件。
所述对转换的文本数据进行数据挖掘,得到最终的可用数据,具体为:
预先设定数据挖掘的方向,并根据所述数据挖掘的方向预设分类集合;
分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对所述相关度的计算结果进行统计,得到最终的可用数据。
所述数据挖掘的方向为以下至少一种:产品分类、类型分类。
所述相关度用浮点数表示,取值范围在0到1之间。
本发明还提供了一种基于语音识别的数据挖掘系统,该系统包括:
语音文件数据库,用于存储语音文件;
文件提取模块,用于从语音文件数据库中提取语音文件;
语音识别模块,用于通过语音识别操作对提取的语音文件进行语义分析,将所述语音文件转换为文本数据;
数据挖掘模块,用于对转换的文本数据进行数据挖掘,得到最终的可用数据。
所述文件提取模块进一步用于,根据预设的查询条件遍历所述语音文件数据库,提取符合所述查询条件的语音文件。
所述数据挖掘模块进一步用于,预先设定数据挖掘的方向,并根据所述数据挖掘的方向预设分类集合;分别计算提取的每个语音文件所对应的文本数据与预设分类集合的相关度,并对所述相关度的计算结果进行统计,得到最终的可用数据。
所述数据挖掘的方向为以下至少一种:产品分类、类型分类。
所述相关度用浮点数表示,取值范围在0到1之间。
本发明所提供的一种基于语音识别的数据挖掘方法和系统,从语音文件数据库中提取语音文件,并通过语音识别操作对提取的语音文件进行语义分析,将该语音文件转换为文本数据;对转换的文本数据进行数据挖掘,得到最终的可用数据。本发明采用语音识别技术对语音信息进行数据挖掘,提高了语音渠道的客服数据统计的准确性,通过对语音数据的分析、统计,最终挖掘得到完整、准确的数据。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010295597.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体装置及其制造方法
- 下一篇:一种实现蓝牙耳机语音报时的方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置