[发明专利]一种音频识别方法、装置、电子设备及存储介质有效
申请号: | 202010335195.0 | 申请日: | 2020-04-24 |
公开(公告)号: | CN111552777B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 王乙丁 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/117;G06F40/289;G10L15/00;G10L15/26 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭晓丽 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 识别 方法 装置 电子设备 存储 介质 | ||
本公开提供一种音频识别方法、装置、电子设备及存储介质,所述方法包括:获取音频信息并输入到音频识别模型,得到音频对及音频对的开始时间和结束时间及识别文本;将识别文本进行分词后,将分词在基准文件库中匹配搜索;根据音频对在多个基准文件中匹配搜索,筛选出音频对匹配的基准字组,根据基准文件中的基准文本及音频对,对基准字组进行校准处理得到第一粒度的匹配结果;筛选出与识别文本匹配的基准文本,得到第二粒度的匹配结果;利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,利用识别文本、音频对以及歌曲库为基础,对原有文字识别结果进行修正,大大提高了歌曲识别的准确性。
技术领域
本公开涉及音频技术领域,特别涉及一种音频识别方法、装置、电子设备及存储介质。
背景技术
现有的音频识别方法通常是根据由设备采集到的音频信息,通过对音频信息中包含的文字进行识别,得到音频文件对应的音频信息,但因音频信息的不完整导致对于音频的识别成功率往往不高,并且即使通过现有技术识别出了文字,最终识别的准确率也不高。
对于短视频中的音频进行识别,需要在保证实时通用准确率的前提下同时提高准确率,但目前在音频识别领域中还没有针对短视频的音频进行识别的模型或方法,并且在视频平台上对实时音频的字幕需求则更高,现有对于音频的解析存在一定的延时,难以满足进行实时识别及预测的需求。
发明内容
本公开提供的一种音频识别方法、装置、电子设备及存储介质,用于解决音频信息的不完整导致对于音频的识别成功率往往不高,并且即使通过现有技术识别出了文字,最终识别的准确率也不高的问题;
本公开第一方面提供一种音频识别方法,该方法包括:
获取音频信息并输入到音频识别模型,得到在声学识别过程中输出的音频对及所述音频对的开始时间和结束时间,及语言识别过程中得到的识别文本;
将所述识别文本进行分词后,利用各分词在基准文件库中进行匹配搜索,根据搜索结果筛选出多个基准文件;
根据所述音频对在筛选出的多个基准文件中进行匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理得到第一粒度的匹配结果;
根据所述识别文本在筛选出的多个基准文件的文本中匹配搜索,筛选出与所述识别文本匹配的基准文本,得到第二粒度的匹配结果;
利用第二粒度的匹配结果对第一粒度的匹配结果进行校准,得到音频信息预测文本,其中所述第二粒度高于第一粒度。
可选地,利用各分词在基准文件库中匹配搜索,根据搜索结果筛选出多个基准文件,包括:
对于各分词,查找基准文件库中出现该分词的基准文本;
根据所有分词的查找结果,利用基准文件中出现分词的个数和或次数对基准文件的筛选。
对于筛选出的多个基准文件,根据分词在基准文本中的位置、顺序、是否连续来判断与原基准文件的相似度,进一步筛选出相似度大于相似度阈值的多个基准文件。
可选地,利用各分词在基准文件库中匹配搜索之前,还包括:
过滤基准文件库中与识别文本无关的非基准文本。
可选地,根据所述音频对在筛选出的多个基准文件中进行匹配搜索,筛选出与任一音频对匹配的基准字组,并根据基准文件中的基准文本及所述音频对的开始时间和结束时间,对筛选出的基准字组进行校准处理,包括:
将筛选出的各基准文件中的基准文本从前向后划分字组,筛选出与任一音频对匹配的基准字组,所述字组的字数大于音频对个数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010335195.0/2.html,转载请声明来源钻瓜专利网。