[发明专利]一种数据处理方法、装置和用于数据处理的装置在审
申请号: | 201811603538.6 | 申请日: | 2018-12-26 |
公开(公告)号: | CN111369978A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 周盼 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/14;G10L15/16;G10L15/22;G10L15/26 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 用于 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
根据多语言声学模型,确定语音信息中语音帧的语言类型;其中,所述多语言声学模型为根据至少两种语言类型的声学数据训练得到;
根据所述语音帧的语言类型对应的解码网络,对所述语音帧进行解码,以得到所述语音帧的第一解码结果;
根据所述第一解码结果,确定所述语音信息对应的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据多语言声学模型,确定语音信息中语音帧的语言类型,包括:
根据多语言声学模型,确定语音帧对应各状态的后验概率;其中,所述状态与语言类型之间具有对应关系;
根据所述语音帧对应各状态的后验概率、以及各状态对应的语言类型,确定所述语音帧的后验概率对应各语言类型状态的概率比值;
根据所述概率比值,确定所述语音帧的语言类型。
3.根据权利要求1所述的方法,其特征在于,在所述根据多语言声学模型,确定语音信息中语音帧的语言类型之前,所述方法还包括:
从所述至少两种语言类型中确定目标语言类型;
根据所述目标语言类型对应的解码网络,对所述语音信息中的各语音帧进行解码,以得到所述各语音帧的第二解码结果;
在所述根据多语言声学模型,确定语音信息中语音帧的语言类型之后,所述方法还包括:
从所述语音信息的语音帧中,确定目标语音帧,以及确定所述目标语音帧的第二解码结果;其中,所述目标语音帧的语言类型为非目标语言类型;
所述根据所述语音帧的语言类型对应的解码网络,对所述语音帧进行解码,以得到所述语音帧的第一解码结果,包括:
根据所述目标语音帧的语言类型对应的解码网络,对所述目标语音帧进行解码,以得到所述目标语音帧的第一解码结果;
所述根据所述第一解码结果,确定所述语音信息对应的识别结果,包括:
将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果,以及将替换后的第二解码结果,作为所述语音信息对应的识别结果。
4.根据权利要求3所述的方法,其特征在于,所述第一解码结果、以及所述第二解码结果包括:对应语音帧的时间边界信息;
所述将所述目标语音帧的第二解码结果替换为所述目标语音帧对应语言类型的第一解码结果,包括:
从所述目标语音帧的第二解码结果中,确定被替换结果;其中,所述被替换结果与所述目标语音帧对应语言类型的第一解码结果的时间边界相重合;
将所述被替换结果替换为所述目标语音帧对应语言类型的第一解码结果。
5.根据权利要求1所述的方法,其特征在于,所述解码网络,包括:通用解码网络和专业解码网络;其中,所述通用解码网络中包括:根据通用的文本语料训练得到的语言模型;所述专业解码网络中包括:根据预置领域的文本语料训练得到的语言模型;
所述根据所述语音帧的语言类型对应的解码网络,对所述语音帧进行解码,以得到所述语音帧的第一解码结果,包括:
分别根据所述通用解码网络和所述专业解码网络对所述语音帧进行解码,以得到所述语音帧对应所述通用解码网络的第一得分,以及所述语音帧对应所述专业解码网络的第二得分;
将所述第一得分和所述第二得分中得分高的解码结果作为所述语音帧的第一解码结果。
6.根据权利要求1所述的方法,其特征在于,所述多语言声学模型的训练步骤包括:
根据收集的至少两种语言类型的声学数据,分别训练各语言类型对应的单语言声学模型;
根据所述单语言声学模型,对所述至少两种语言类型的声学数据分别进行状态标注,其中,所述状态与语言类型之间具有对应关系;
根据标注后的至少两种语言类型的声学数据组成的数据集,训练多语言声学模型。
7.根据权利要求1至6中任一所述的方法,其特征在于,所述至少两种语言类型的声学数据中的每一个数据对应至少两种语言类型;或者,所述至少两种语言类型的声学数据中的每一个数据对应一种语言类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811603538.6/1.html,转载请声明来源钻瓜专利网。