[发明专利]一种电话录音数据的处理方法及系统有效
申请号: | 201210282728.9 | 申请日: | 2012-08-09 |
公开(公告)号: | CN103578470B | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 高建清;王智国;何婷婷;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/20;G10L15/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电话录音 数据 处理 方法 系统 | ||
本发明实施例公开了一种电话录音数据的处理方法,包括:对输入的源录音数据进行端点检测,获取有声数据;判断有声数据是否为无效数据,若是,则舍弃,否则,确定有声数据为语音数据;判断语音数据是否为异常数据,若是,则舍弃,否则,确定语音数据为有效语音数据。本发明公开的电话录音数据的处理方法,滤除了具有较高能量的噪声信号和异常语音信号,保证进入后续语音识别系统的数据的有效性,从而降低了后续语音识别过程的错误率,提高了语音识别的效率,同时通过端点检测确定有声数据的步骤,减小了运算量。本发明实施例还公开了一种电话录音数据的处理系统。
技术领域
本发明属于语音识别技术领域,尤其涉及一种电话录音数据的处理方法及系统。
背景技术
随着人们对信息获取移动性需求的不断增加以及电话网络的日益普及,电话语音服务正日益渗透到人们生活的方方面面。同时,针对各种电话语音服务的录音数据后续处理,例如信息挖掘、统计分析、服务质量抽查、关键词检索等需求也越来越迫切。面对海量的电话录音数据进行人工处理显然是不切实际的,这些需求通常首先要通过自动语音识别模块将语音数据转化为文字数据,然后再使用文本挖掘、检索技术进行处理。如果不对这些电话录音数据进行筛选,直接交给自动语音识别模块来处理,将极大增加语音识别的错误率,进而严重降低各种后续处理模块的有效性。因此,在自动语音识别模块接触源录音数据之前,要对源录音数据进行处理,增加一个无效语音数据的过滤装置。
公开号为CN1949364A的专利申请公开了一种检测输入语音信号可甄别度的系统和方法,将输入信号的信噪比、输入信号为语音的几率以及系统处理输入信号的可靠度作为语音质量的衡量准则,符合该衡量准则的语音信号被送入后续的语音识别系统进行后续处理。
但是,经过上述系统处理后的语音数据进入自动语音识别系统后,自动语音识别系统仍会出现较高的错误率,并且识别效率较低。如何提高自动语音识别系统的识别效率、降低其错误率是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种电话录音数据的处理方法,可以将源录音数据中具有较高能量的噪声信号和异常语音信号滤除,从而降低后续语音识别的错误率、提高语音识别的效率。本发明还公开了一种电话录音数据的处理系统。
为实现上述目的,本发明提供如下技术方案:
一种电话录音数据的处理方法,包括:
对输入的源录音数据进行端点检测,获取有声数据;
判断所述有声数据是否为无效数据,若是,则舍弃,否则,确定所述有声数据为语音数据;
判断所述语音数据是否为异常数据,若是,则舍弃,否则,确定所述语音数据为有效语音数据;
所述无效数据包括拨号音、振铃音、传真音、静音、挂机音和彩铃音,所述异常数据包括音量过大的语音数据、音量过小的语音数据以及噪音干扰过大的语音数据。
优选的,在上述方法中,判断所述有声数据是否为无效数据的步骤,包括:
将有声数据中的每一帧依次作为当前帧,判断所述当前帧是否为噪音帧;
确定所述有声数据中噪音帧的总量;
判断所述噪音帧的总量与所述有声数据中数据帧总量之间的比值是否达到第一阈值或判断所述噪音帧的总量是否达到第二阈值,若所述比值达到第一阈值或所述噪音帧的总量达到第二阈值,则确定所述有声数据为无效数据;否则,确定所述有声数据为语音数据。
优选的,在上述方法中,判断所述有声数据是否为无效数据的步骤,包括:
步骤S21:初始化所述有声数据中噪音帧的数量,确定所述有声数据中的第一帧为当前帧;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210282728.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置