[发明专利]基于音频媒体分析的语音识别技术在审
申请号: | 202010922652.6 | 申请日: | 2020-09-04 |
公开(公告)号: | CN114141244A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 余城诚;彭德中;王骞;刘杰;张利君;银大伟;蒋瑞;付俊英 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/02;G10L25/21;G10L25/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音频 媒体 分析 语音 识别 技术 | ||
1.一种基于音频媒体分析的语音识别技术,其特征在于,包括以下步骤:
1)提取包括13阶MFCC,13阶一阶差分MFCC,过零率,短时能量和子带能量比等功能的帧级特征;
2)使用基于SVM的分类器的分类器进行分类;
3)使用分段的类别执行故事单元分段;
4)使用包括语音端点检测,特征提取,声学和语言模型,识别引擎的语音识别系统进行识别。
2.根据权利要求1所述的用于音频媒体分析的语音识别技术,其特征在于,提取包括13阶MFCC,13阶一阶差分MFCC,过零率,短时能量和子带能量比等功能的帧级特征由下式决定:
1)梅尔频率倒谱系数(MFCC)
2)过零率(ZCR)
3)短时能量(STE)
4)子带能量比
5)一帧中子带功率与总功率之比定义:
3.根据权利要求1-2中所述的用于音频媒体分析的语音识别技术,其特征在于,音频的分类由下式决定:
1)SVM
2)音频分类方案
STESTEthreshold,ZCRZCRthreshold (7)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010922652.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体结构及其形成方法
- 下一篇:基片集成波导的滤波器、天线装置