[发明专利]一种面向非特定人的语音敏感信息检测和过滤方法在审
申请号: | 201510320065.9 | 申请日: | 2015-06-10 |
公开(公告)号: | CN105006230A | 公开(公告)日: | 2015-10-28 |
发明(设计)人: | 苏兆品;张国富;岳峰;齐美彬;蒋建国;胡东辉 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/06;G10L25/54 |
代理公司: | 安徽合肥华信知识产权代理有限公司 34112 | 代理人: | 余成俊 |
地址: | 230009 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 语音 敏感 信息 检测 过滤 方法 | ||
技术领域
本发明涉及多媒体内容安全技术,具体是一种面向非特定人的语音敏感信息检测和过滤方法。
背景技术
随着电信网络技术的发展,电话语音、网络音频为首的语音应用日渐成熟。但是,含有敏感信息、非法信息的语音传播不利于社会和谐稳定和和国家长治久安。如何从海量的语音数据中检测敏感信息已经成为亟待解决的问题。
传统的方法是采用人工聆听,这种方式仅适用于处理少量语音,而对海量语音信息进行人工检测时,其效率低下,往往耗费巨大的人力物力,却难以达到令人满意的检测准确率。随着语音识别技术的发展,人们首先将语音识别成文字,再采用文本过滤的方法检测出敏感词并对文字进行处理,然后返回到相应的语音帧将其过滤。虽然该方法采用计算机自动处理,避免了人力资源浪费,但是语音识别过程缓慢,很难应用于电视、广播等实时互动语音节目、语音聊天室等对实时性要求较高的场合。
综上,现有技术中,面向非特定人的语音敏感信息检测和过滤方法局限性大,漏检率、误检率高,很难满足实时性需求。
发明内容
本发明的目的是提供一种面向非特定人的语音敏感信息检测和过滤方法,以解决现有技术存在的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:首先对敏感词语音进行采集,提取语音特征,生成敏感词特征模板,创建敏感词特征模板数据库;
然后接收待处理的实时语音或语音文件,提取实时语音或语音文件的特征;
最后采用粗匹配与细匹配相结合的方法,将提取的待处理的实时语音或语音文件的语音特征与敏感词特征模板数据库中的模板进行比对,检测出实时语音或语音文件中的敏感词,并将检测出的敏感词进行过滤。
所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:对敏感词语音进行语音特征提取的过程为:对敏感词语音进行信号处理,采用端点检测判断出语音信号的开始帧和结束帧,提取频域39维语音特征向量,提取的语音特征具有唯一性。
所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:敏感词特征模板的生成过程为:采集多段非特定人的敏感词语音,提取语音特征,采用自学习机制迭代更新敏感词特征模板,直至敏感词特征模板不再变化为止。
所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:所述对待处理的语音特征与敏感词特征模板数据库中的模板进行比对的过程为:提取待处理的实时语音或语音文件的语音特征后,先采用粗匹配方法确定是否存在敏感词,若存在,则采用细匹配方法确定敏感词的具体位置,以便于进行过滤处理;
粗匹配时,依次从敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头开始直接比对,若高于粗匹配阈值,则认为该处不存在该敏感词;若低于粗匹配阈值,则认为该处可能存在当前正在匹配的敏感词,并进入细匹配模式;
细匹配时,从当前语音帧开始,以当前敏感词为模板,继续粗匹配若干帧,寻找语音距离最小的帧号标记为敏感词开始,以该敏感词全部帧长为中心,并变长地计算与该敏感词的欧氏距离,判断其最小值是否高于细匹配阈值。若最小值高于细匹配阈值,则判断不存在该词;若最小值低于细匹配阈值,则判断存在该敏感词,而且敏感词的长度即为该语音距离所对应的帧长。
所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:粗匹配时,敏感词特征模板数据库中的每个特征模板前五帧放入待处理语音帧头进行比对时,采用计算待处理语音帧的语音特征与敏感词特征模板之间的语音距离的方法,度量方法可以采用欧氏距离方法、曼哈顿距离方法。
所述的一种面向非特定人的语音敏感信息检测和过滤方法,其特征在于:粗匹配和细匹配阈值的选择是根据敏感信息检测的误判率和漏判率进行调整。
本发明中,首先建立敏感词特征模板数据库;当需要对实时语音或语音文件进行敏感词检测和过滤时,先对待处理的实时语音或语音文件提取具有唯一性的语音特征,然后与敏感词特征模板数据库中的特征进行匹配,检测出敏感词,并进行过滤。
采用本发明,对待处理的语音特征进行敏感词的依次匹配,采用多线程方法进行。
采用本发明,根据实际需要,建立不同规模的敏感词特征模板数据库。
采用本发明,根据敏感词检测方法的正确率,设置粗匹配和细匹配的阈值,并进行微调。
与已有技术相比,本发明有益效果体现在:
(1)本发明是基于语音特征实现敏感词的检测和过滤,保证了本发明是面向非特定人的,只与说话人说话的内容有关;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510320065.9/2.html,转载请声明来源钻瓜专利网。