[发明专利]一种面向非特定人的语音敏感信息检测和过滤方法在审
申请号: | 201510320065.9 | 申请日: | 2015-06-10 |
公开(公告)号: | CN105006230A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 苏兆品;张国富;岳峰;齐美彬;蒋建国;胡东辉 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/06;G10L25/54 |
代理公司: | 安徽合肥华信知识产权代理有限公司 34112 | 代理人: | 余成俊 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 语音 敏感 信息 检测 过滤 方法 | ||
1.一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:首先对敏感词语音进行采集,提取语音特征,生成敏感词特征模板,创建敏感词特征模板数据库;
然后接收待处理的实时语音或语音文件,提取实时语音或语音文件的特征;
最后采用粗匹配与细匹配相结合的方法,将提取的待处理的实时语音或语音文件的语音特征与敏感词特征模板数据库中的模板进行比对,检测出实时语音或语音文件中的敏感词,并将检测出的敏感词进行过滤。
2.根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:对敏感词语音进行语音特征提取的过程为:对敏感词语音进行信号处理,采用端点检测判断出语音信号的开始帧和结束帧,提取频域39维语音特征向量,提取的语音特征具有唯一性。
3.根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:敏感词特征模板的生成过程为:采集多段非特定人的敏感词语音,提取语音特征,采用自学习机制迭代更新敏感词特征模板,直至敏感词特征模板不再变化为止。
4.根据权利要求1所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:所述对待处理的语音特征与敏感词特征模板数据库中的模板进行比对的过程为:提取待处理的实时语音或语音文件的语音特征后,先采用粗匹配方法确定是否存在敏感词,若存在,则采用细匹配方法确定敏感词的具体位置,以便于进行过滤处理;
粗匹配时,依次从敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头开始直接比对,若高于粗匹配阈值,则认为该处不存在该敏感词;若低于粗匹配阈值,则认为该处可能存在当前正在匹配的敏感词,并进入细匹配模式;
细匹配时,从当前语音帧开始,以当前敏感词为模板,继续粗匹配若干帧,寻找语音距离最小的帧号标记为敏感词开始,以该敏感词全部帧长为中心,并变长地计算与该敏感词的欧氏距离,判断其最小值是否高于细匹配阈值;若最小值高于细匹配阈值,则判断不存在该词;若最小值低于细匹配阈值,则判断存在该敏感词,而且敏感词的长度即为该语音距离所对应的帧长。
5.根据权利要求4所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:粗匹配时,敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头进行比对时,采用计算待处理语音帧的语音特征与敏感词特征模板之间的语音距离的方法,度量方法可以采用欧氏距离方法、曼哈顿距离方法。
6.根据权利要求4所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:粗匹配和细匹配阈值的选择是根据敏感信息检测的误判率和漏判率进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510320065.9/1.html,转载请声明来源钻瓜专利网。