[发明专利]一种黑广播音频识别方法在审
申请号: | 202010935451.X | 申请日: | 2020-09-08 |
公开(公告)号: | CN112019285A | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 郑鑫;汤善武 | 申请(专利权)人: | 成都华乾科技有限公司 |
主分类号: | H04H20/14 | 分类号: | H04H20/14;H04H60/29;G10L15/30;G10L15/18;G10L15/26;G10L25/03;G10L25/18;G10L25/21;G10L25/51 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 广播 音频 识别 方法 | ||
1.一种黑广播音频识别方法,其特征在于,包括:
S1、提取回传音频和基准音频的信号特征;
S2、提取回传音频和基准音频的语义特征;
S3、分别针对信号特征和语义特征对回传音频和基准音频进行信号相似性和语义相似性计算;
S4、首先根据语义相似性比对,若语义相似性比对判决为高相似,得到比对结果;若语义相似性比判决为低相似则进行信号相似性比对,得到比对结果,根据比对结果完成对黑广播音频的识别。
2.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S1中,信号特征为包括频谱质心、短时平均能量和短时过零率,均通过解码后的音频文件的频率数据计算而来。
3.根据权利要求1所述的黑广播音频识别方法,其特征在于,ss1S2具体包括:
S21、通过多个语音识别接口识别音频文件,得到对应接口输出的多个文本;
S22、分别对输出文本进行词频分析形成词频字典;
S23、对多个接口输出文本形成的词频字典进行汇总,对权重相加,汇总的词频字典中词频大于设定门限的词汇作为关键词,得到音频的语义特征。
4.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S21中,语音识别接口包括3个,至少包括1个网络接口和1个本地接口。
5.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S22中,词频分析形成词频字典的具体过程为:
S221、对文本进行分词,存放在分词数组中,初始化词频词典,设定分词数组下标i=0
S222、取分词数组第i个词汇,判断该词汇是否为虚词,是则进入S,否则进入S2,
S223、判断该词是否在词典中,是则将词典中的该词汇频数加1,否则,将该词汇加入词典,并将该词汇的频数置为1;
S224、判断是否遍历完分词数组,否则进入S5,是则i的值加1,并进入S2;
S225、形成词频词典。
6.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S23具体包括,
S231、将词频词典进行汇总:
其中,其中,j=0时表示基准音频词频词典,j=1时表示回传音频词频词典。表示基准音频中的词汇,表示该词汇的词频数;表示回传音频中的词汇,表示该词汇的词频数,N1、N2分别表示为基准音频和回传音频中词汇的个数;
S232、将词频大于设定门限的词汇作为关键词:
key_setj=(key1,key2,…keyi…)
其中,key就是词汇表ci_dic中频数较高的词汇,j=0,1;key_set0记为基准音频关键词,key_set1记为回传音频关键词。
7.根据权利要求1所述的黑广播音频识别方法,其特征在于,所述S3中信号相似性计算具体为:
S311、对信号特征进行降维处理,形成新向量v=[v(0),v(1),...,v(M)];
其中,L为向量s的长度,M为降维后新向量v的长度,M可根据需求设置;step为步长,对step个s(j)求和,形成1个v(i);
S312、对降维后的信号特征进行规格化:
其中,v′为规格化后的信号特征向量,各分量范围为[0,1];
S313、根据规格化后的信号特征,分别对回传音频和基准音频进行相似性计算,其中,相似性计算方法为:
其中,a、b分别为回传音频和基准音频信号特征降维后的规格化向量,音频频谱质心、短时平均能量和短时过零率特征的相似度,分别记为sim1、sim2、sim3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都华乾科技有限公司,未经成都华乾科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010935451.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种顶装焦配合煤
- 下一篇:硫化物-聚合物复合固态电解质及其制备方法和应用