[发明专利]一种语音分析的方法、装置、电子设备和存储介质在审
申请号: | 201911165494.8 | 申请日: | 2019-11-25 |
公开(公告)号: | CN111179966A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 李红岩;刘岩;党莹;黄洪运;李玉莹 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G10L25/45 | 分类号: | G10L25/45;G10L25/51;G10L19/26 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 赵祎 |
地址: | 100031 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 分析 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种语音分析的方法、装置、电子设备和存储介质,涉及语音分析技术领域,用以解决现有技术中存在的语音分析的效率及准确率较低的问题,本发明方法包括:获取待分析的语音数据,其中,语音数据为实时获取的语音数据或历史的语音数据;对语音数据进行分帧处理,并对分帧处理后的语音数据进行傅里叶变换,得到多个音频帧;针对任意一个音频帧,检测音频帧是否为包含语音的音频帧;根据检测结果滤除不包含语音的音频帧,并对包含语音的音频帧进行语音分析。由于本发明仅对包含语音的音频帧进行语音分析,对于不包含语音的音频帧则不进行语音分析,提高了语音分析的效率;此外,对不包含语音的音频帧进行了滤除,提高了语音分析的准确率。
技术领域
本发明涉及语音分析技术领域,特别涉及一种语音分析的方法、装置、电子设备和存储介质。
背景技术
语音分析是指通过语音识别等核心技术将非结构化的语音信息转换为结构化的索引,实现对海量录音文件、音频文件的知识挖掘和快速检索。
现有技术中,对离线语音文件进行语音分析是直接将整个录音文件传送至语音分析模块,如语音识别、声纹识别等。然而,离线语音分析场景下的录音文件中通常含有大段静音,该方式下,会对语音分析模块的准确率和处理性能有较大影响。
综上所述,现有技术中的语音分析方式的效率及准确率较低。
发明内容
本发明提供一种语音分析的方法、装置、电子设备和存储介质,用以解决现有技术中存在的语音分析的效率及准确率较低的问题。
第一方面,本发明实施例提供的一种语音分析的方法包括:
获取待分析的语音数据,其中所述语音数据为实时获取的语音数据或历史的语音数据;
对所述语音数据进行分帧处理,并对分帧处理后的语音数据进行傅里叶变换,得到多个音频帧;
针对任意一个音频帧,检测所述音频帧是否为包含语音的音频帧;
根据检测结果滤除不包含语音的音频帧,并对包含语音的音频帧进行语音分析。
在一种可能的实现方式中,所述对预处理后的语音数据中包含语音的音频帧进行语音分析,包括:
将所述语音数据划分为至少一个有效音频片段,对所述至少一个有效音频片段并行进行语音分析,其中所述有效音频片段包括一个包含语音的音频帧或连续多个包含语音的音频帧;或
在对所述语音数据中包含语音的音频帧的检测过程中,对检测到的包含语音的音频帧进行语音分析。
在一种可能的实现方式中,所述包含语音的音频帧为标记次数不小于预设阈值的音频帧;
其中,通过下列方式对音频帧进行标记:
针对所述语音数据中任意一个音频帧,将所述音频帧的LTSD与判决门限进行比较,若所述音频帧的LTSD大于判决门限,则将所述音频帧、位于所述音频帧之前的N1个音频帧以及位于所述音频帧之后的N2个音频帧进行标记,其中N1、N2为正整数。
在一种可能的实现方式中,所述预设阈值是根据N1及N2确定的。
在一种可能的实现方式中,所述方法还包括:
对所述语音数据中的音频帧进行一次标记后,判断所述音频帧的标记次数是否不小于预设阈值;或
完成所述语音数据中的所有音频帧的标记后,判断所述语音数据中每个音频帧的标记次数是否不小于预设阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911165494.8/2.html,转载请声明来源钻瓜专利网。