[发明专利]一种语音年龄识别方法及系统在审
申请号: | 201811355773.6 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109448756A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 马金龙;杨欣;陈靖 | 申请(专利权)人: | 北京大生在线科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L17/04;G10L17/02;G10L25/03 |
代理公司: | 北京联创佳为专利事务所(普通合伙) 11362 | 代理人: | 郭防 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征参数 年龄识别 语音数据 语音 预处理数据 预处理 人工成本 特征提取 语音标注 语音识别 预先存储 年龄段 全人工 加载 降维 聚合 标注 过滤 采集 小孩 计算机 | ||
本发明公开了一种语音年龄识别方法及系统,其中,所述方法包括:采集待识别语音数据;对所述待识别语音数据进行预处理,得到第一预处理数据;对所述第一预处理数据进行特征提取,得到第一特征参数;对所述第一特征参数进行降维与聚合,得到第二特征参数;加载预先存储的SVM模型,并根据所述SVM模型以及所述第二特征参数识别出所述待识别语音数据所属的年龄段。与现有技术相比,本发明所述语音年龄识别方法及系统用计算机代替人工,很好的过滤非小孩语音,加快语音标注的速度,提升全人工标注的效率,提高语音识别率,同时能够降低人工成本。
技术领域
本发明涉及一种语音年龄识别方法及系统,属于说话人识别技术领域。
背景技术
随着人工智能研究热的兴起,大量的人机交互产品需要对说话人本身进行区分,尤其在在线教育行业,准确并实时确定上课人本身对做好智能交互、跟踪学习进度、提升学习效率有很大的帮助。
目前,在少儿英语语音识别垂直领域,由于在声学模型训练中存在数据干扰,而绝大部分数据干扰来源于成人口语,在少儿英语识别过程中很明显识别率会下降。为了提升识别率,只能对训练数据进行清洗,目前根据业务需求清洗的办法就是通过大量人工过滤成人语音,选取小孩语音,导致数据标注的效率低,也会增加人工成本。
发明内容
本发明的目的在于,提供一种语音年龄识别方法及系统,可以至少解决上述技术问题之一。
为解决上述技术问题,本发明采用如下的技术方案:
一种语音年龄识别方法,包括:采集待识别语音数据;对所述待识别语音数据进行预处理,得到第一预处理数据;对所述第一预处理数据进行特征提取,得到第一特征参数;对所述第一特征参数进行降维与聚合,得到第二特征参数;根据预先存储的SVM模型以及所述第二特征参数识别出所述待识别语音数据所属的年龄段。
前述的语音年龄识别方法中,所述方法还包括:输入语音训练数据;对所述语音训练数据进行预处理,得到第二预处理数据;对所述第二预处理数据进行特征提取,得到第三特征参数;对所述第三特征参数进行降维与聚合,得到第四特征参数;根据SVM算法、所述第四特征参数以及第一年龄标注结果进行训练,生成所述SVM模型,其中,所述第一年龄标注结果是对所述语音训练数据进行年龄标注得到的;存储所述SVM模型。
前述的语音年龄识别方法中,在生成所述SVM模型之后,所述方法还包括:输入语音测试数据;对所述语音测试数据进行预处理,得到第三预处理数据;对所述第三预处理数据进行特征提取,得到第五特征参数;对所述第五特征参数进行降维与聚合,得到第六特征参数;根据所述SVM模型以及所述第六特征参数识别出所述语音测试数据所属的年龄段,得到识别结果;将所述识别结果与第二年龄标注结果进行比对,得到识别率,其中,所述第二年龄标注结果是对所述语音测试数据进行年龄标注得到的。
前述的语音年龄识别方法中,所述预处理包括分帧、加窗和预加重;和/或所述特征提取包括时域特征参数提取和频域特征参数提取,其中,时域特征参数包括短时过零率、短时能量谱和基音周期,频域特征参数包括LPCC、ΔLPCC、MFCC和ΔMFCC;和/或所述降维为采用PCA算法进行数据降维,所述聚合为采用k-means算法进行数据聚合。
前述的语音年龄识别方法中,在对所述待识别语音数据进行预处理之前,所述方法还包括:对所述待识别语音数据进行循环缓存;按一定时间间隔读取缓存的所述待识别语音数据。
一种语音年龄识别系统,包括:音频采集模块,用于采集待识别语音数据;预处理模块,用于对所述待识别语音数据进行预处理,得到第一预处理数据;特征提取模块,用于对所述第一预处理数据进行特征提取,得到第一特征参数;降维聚合模块,用于对所述第一特征参数进行降维与聚合,得到第二特征参数;SVM识别模块,用于根据预先存储的SVM模型以及所述第二特征参数识别出所述待识别语音数据所属的年龄段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大生在线科技有限公司,未经北京大生在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811355773.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人工耳蜗听觉场景识别方法
- 下一篇:一种检测语音质量的方法和装置