[发明专利]用于无监督语言模型权重选择的最佳路径变化率在审
申请号: | 202080015407.5 | 申请日: | 2020-02-14 |
公开(公告)号: | CN113939869A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 王培栋;崔佳;翁超;俞栋 | 申请(专利权)人: | 腾讯美国有限责任公司 |
主分类号: | G10L15/197 | 分类号: | G10L15/197;G10L19/24;G10L15/18 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 赵翠萍;张颖玲 |
地址: | 美国加利福尼亚州*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 监督 语言 模型 权重 选择 最佳 路径 变化 | ||
一种选择用于执行自动语音识别的最优语言模型权重(LMW)的方法,该方法包括:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW来分析词格,以确定第一多个最佳路径;使用多个LMW中的第二LMW来分析词格,以确定第二多个最佳路径;基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR来确定第一LMW为最优LMW。
相关申请的交叉引用
本申请要求于2019年2月19日提交的第16/279,491号美国申请的优先权,该美国申请的公开内容通过引用整体并入本文。
背景技术
在现有技术的语音识别系统中,独立地训练声学模型P(A|W)和语言模型P(W)。在解码期间,来自声学模型的似然得分和来自语言模型的概率在不同的标度上,因此它们需要与特定的标度组合:score(W)=log(P(A|W))+LMW×log(P(W)),其中LMW是称为语言模型权重的标度值。
在许多实词应用中,一个训练过的声学模型可与领域特定的语言模型一起用于不同识别任务。LMW需要针对每个任务进行调节。
图1示出了现有技术的LMW选择方法100,LMW选择方法100通过针对不同任务的不同开发集合的性能来选择LMW。这通常需要与真实测试数据非常相似的人类转录的开发数据集。然后模型需要用于以不同LM权重进行解码。然后将解码结果与真实参考进行比较以获得字错误率(WER)。最后,选择具有最小WER的LMW作为最优LMW。
现有技术的这种选择最优LMW的方法需要与测试数据非常相似的开发数据集。可能难以收集这种开发数据,这种开发数据也足够大而不能提供可靠的WER。此外,这种现有技术的方法需要对每个LMW计算WER。
发明内容
在一个实施例中,提供一种用于选择用于执行自动语音识别的最优语言模型权重(LMW)的方法,该方法包括:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW分析词格,以确定第一多个最佳路径;使用多个LMW中的第二LMW分析词格,以确定第二多个最佳路径;基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR,确定第一LMW为最优LMW。
在一个实施例中,提供一种用于选择用于执行自动语音识别的最优LMW的设备,该设备包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并根据程序代码的指令操作,程序代码包括:解码代码,配置成使得至少一个处理器使用语言模型将测试音频解码成词格;第一分析代码,配置成使得至少一个处理器使用多个LMW中的第一LMW分析词格,以确定第一多个最佳路径;第二分析代码,配置成使得至少一个处理器使用多个LMW中的第二LMW分析词格,以确定第二多个最佳路径;第一确定代码,配置成使得至少一个处理器基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及第二确定代码,配置成使得至少一个处理器基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR,确定第一LMW为最优LMW。
在一个实施例中,提供一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储多个指令,多个指令包括一个或多个指令,当由用于选择用于执行自动语音识别的最优语言模型权重(LMW)的设备的一个或多个处理器运行时,一个或多个指令使得一个或多个处理器:使用语言模型将测试音频解码成词格;使用多个LMW中的第一LMW分析词格,以确定第一多个最佳路径;使用多个LMW中的第二LMW分析词格,以确定第二多个最佳路径;基于第一多个最佳路径和第二多个最佳路径之间的最佳路径变化的数量,确定对应于第一LMW的第一最佳路径变化率(BCPR);以及基于第一BCPR为对应于多个LMW的多个BCPR中的最小BCPR,确定第一LMW为最优LMW。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司,未经腾讯美国有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080015407.5/2.html,转载请声明来源钻瓜专利网。