[发明专利]音频识别方法、装置、计算机设备及存储介质在审
申请号: | 202111475238.6 | 申请日: | 2021-12-04 |
公开(公告)号: | CN114495938A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 余剑威;田晋川 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F16/33;G06F16/683;G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李文静 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种音频识别方法,其特征在于,所述方法包括:
对目标音频数据进行识别,得到多个文本数据中的每个所述文本数据的第一关联特征,所述第一关联特征表示所述文本数据与所述目标音频数据之间的关联程度;
对于每个所述文本数据,基于所述文本数据的第一关联特征和其他文本数据的第一关联特征,确定所述文本数据的第一融合特征,所述第一融合特征与所述文本数据的第一关联特征正相关,且与每个所述文本数据的第一关联特征之和负相关;
基于每个所述文本数据的第一融合特征,在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据。
2.根据权利要求1所述的方法,其特征在于,所述对目标音频数据进行识别,得到多个文本数据中的每个所述文本数据的第一关联特征,包括:
对所述目标音频数据进行识别,得到每个所述文本数据的第一关联特征和第二关联特征,所述第二关联特征表示由所述目标音频数据识别到所述文本数据的可能性;
所述基于每个所述文本数据的第一融合特征,在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据,包括:
对每个所述文本数据的所述第一融合特征和所述第二关联特征进行加权融合,得到每个所述文本数据的融合分值;
在多个所述文本数据中,将对应的融合分值最大的文本数据确定为所述目标文本数据。
3.根据权利要求1所述的方法,其特征在于,所述对目标音频数据进行识别,得到多个文本数据中的每个所述文本数据的第一关联特征,包括:
对所述目标音频数据进行识别,得到每个所述文本数据的第一关联特征和第三关联特征,所述第三关联特征表示由所述目标音频数据中的多个音频帧识别到所述文本数据中的多个字符的可能性;
所述基于每个所述文本数据的第一融合特征,在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据,包括:
对每个所述文本数据的所述第一融合特征和所述第三关联特征进行加权融合,得到每个所述文本数据的融合分值;
在多个所述文本数据中,将对应的融合分值最大的文本数据确定为所述目标文本数据。
4.根据权利要求1所述的方法,其特征在于,所述目标音频数据包括n个音频帧,n为大于1的正整数,每个所述文本数据中包括多个字符,所述方法还包括:
对所述目标音频数据中的n个音频帧进行识别,得到多个第一文本片段以及每个所述第一文本片段中的每个字符的字符分值,所述字符分值表示由所述n个音频帧识别到所述字符的可能性;
对于每个所述第一文本片段,基于所述第一文本片段,对所述n个音频帧进行识别,得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值,每个所述第二文本片段包括所述第一文本片段和所述最后一个字符,所述字符分值表示在由所述n个音频帧识别到所述第一文本片段的情况下识别到所述最后一个字符的可能性,直至得到的多个文本片段的最后一个字符中字符分值最高的为结尾字符,所述结尾字符指示所述文本数据的结尾;
将识别到的多个文本片段分别确定为所述文本数据,并基于每个所述文本数据中每个字符的字符分值,确定每个所述文本数据的文本分值,所述文本分值与每个所述字符的字符分值正相关;
所述基于每个所述文本数据的第一融合特征,在多个所述文本数据中确定与所述目标音频数据匹配的目标文本数据,包括:
基于每个所述文本数据的所述第一融合特征和所述文本分值,在多个所述文本数据中确定所述目标文本数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一文本片段,对所述n个音频帧进行识别,得到多个第二文本片段和每个所述第二文本片段中的最后一个字符的字符分值,包括:
基于所述第一文本片段,对所述n个音频帧进行识别,得到多个所述第二文本片段、每个所述第二文本片段对应的第一分值以及第二分值,其中,所述第一分值表示由所述n个音频帧识别到所述第二文本片段的可能性,所述第二分值表示由所述n个音频帧识别到所述第一文本片段的情况下未识别到新的字符的可能性;
将每个所述第二文本片段对应的第一分值与所述第二分值之间的差值,确定为每个所述第二文本片段中最后一个字符的字符分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111475238.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高压法制备硬脂酸钙研发用反应装置
- 下一篇:一种距骨微型解剖万向锁定钢板