[发明专利]基于支持向量机的不良语音识别方法无效

专利信息
申请号: 201210197377.1 申请日: 2012-06-15
公开(公告)号: CN102708861A 公开(公告)日: 2012-10-03
发明(设计)人: 傅政军;姚金良;王小华;黄金海;周建政;周渝清;严俊杰 申请(专利权)人: 天格科技(杭州)有限公司;杭州电子科技大学;金华就约我吧网络科技有限公司
主分类号: G10L15/14 分类号: G10L15/14;G10L15/02;G10L19/02
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 杜军
地址: 310005 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 支持 向量 不良 语音 识别 方法
【说明书】:

技术领域

发明属于智能语音处理领域,具体涉及一种基于支持向量机的不良语音识别方法。

背景技术

不良语音识别是从实时语音流中自动检测出包含有不良语音的片段,其中不良语音是指各种色情语音。随着Web2.0时代的到来,以及网络内容的发布缺乏有效的监控机制,大量的色情信息出现在互联网上。如何有效抑制色情信息在网络上的传播是一项重要工作。根据政府部门 “谁经营谁负责,谁接入谁负责”的原则来过滤不良信息,大量的web2.0网站都需要面临如何高效地过滤色情信息的问题。从而自动的不良语音和视频识别技术具有广泛应用及产业化前景。不良语音识别技术可以与不良视频检测技术融合来识别不良多媒体信息,是当前从技术角度促进网络环境健康发展的重要技术手段。

当前不良图像/视频识别的技术成果较多,但是不良语音识别技术的成果较少,主要有以下几种方法:

(1)方法首先从视频文件中提取出音频信息,再通过汉明窗加窗处理后被分成0.02秒的短时音频处理帧,并对音频处理帧提取MFCC系数等特征。然后利用短时能量将音频处理帧分静音帧和非静音帧,再利用单高斯模型将非静音帧进一步分成音乐、语音、音乐语音混合声和环境声四类,最后再利用隐马尔可夫模型从剩余的语音和音乐语音混合帧中识别出可能包含色情的音频帧。(姬鹏宇,色情视频的音频辅助识别,北京邮电大学,硕士论文,2011)。

(2)方法在MFCC系数的基础上提出了一种刻画语音频率不断重复的特征(repeated curve-like spectrum feature),并作为不良语音识别的特征,用SVM分类器来识别不良语音。 (JaeDeok Lim et al., Classification and Detection of Objectionable Sounds Using Repeated Curve-like Spectrum Feature, 2011 International Conference on Information Science and Applications (ICISA), pp.1-5, 2011)。

不良语音识别最为关键的技术是:不良语音特征的提取和分类器的选择。由于不良语音识别系统无法预先知道输入的语音信息是在哪种情况下录制的,很多不良语音存在大量的背景声音,比如:音乐,因此,不良语音特征提取最为重要的是要对各种噪声鲁棒。MFCC系数在语音识别领域被广泛使用,但并不是最为有效的语音特征,当前有很多新的更为鲁棒的语音特征被提取出来。在分类器的选择方面,单高斯模型可用于识别不良语音,但是其只能建模单一种类的不良语音,而实际上,不良语音的种类较多。采用支持向量机对不良语音进行识别需要面对计算复杂度较高的困难。而隐马尔可夫模型通过建模相邻语音帧之间的关系来提高识别的准确,而正常语音转换为不良语音的条件概率很难建模实际的概率。

发明内容

本发明的目的主要是针对现有不良语音识别方法鲁棒性不高的问题,而提供一种算法复杂度低、有较好精度的方法,实现对当前网络语音流的不良语音片段的检出。

本发明方法步骤如下:

步骤(1)获取输入语音流,将语音流解码为原始语音信号,并进行预处理操作,预处理操作主要包括以下步骤:

1)如果输入音频是立体声语音信号,则进行单声道处理,即将立体声混合为单声道语音;

2)如果输入音频的采样率与方法预先定义的采样率不一致,则进行采样率调整,即将音频原始采样率转换为预先定义的采样率。

3)如果输入音频的量化位数与方法预先定义的量化位数不一致,则进行重新量化,即将原来的量化值转换为新的量化值。

步骤(2)对预处理后的语音数据进行加窗分帧处理;

步骤(3)对每帧语音提取移位差分倒谱参数特征;

步骤(4)对移位差分倒谱参数特征采用高斯混合模型进行分类;其学习的样本数据包括各种种类的不良语音片段。

步骤(5)对分类为不良语音的候选帧进行支持向量机的分类,确认最终的不良语音帧;

步骤(6)根据一定时间内不良语音帧的数量来提取不良语音片段并进行存储。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天格科技(杭州)有限公司;杭州电子科技大学;金华就约我吧网络科技有限公司,未经天格科技(杭州)有限公司;杭州电子科技大学;金华就约我吧网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210197377.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top