[发明专利]一种语音处理方法、装置、终端及存储介质在审
申请号: | 202010849414.7 | 申请日: | 2020-08-21 |
公开(公告)号: | CN111951790A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 田植良 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G06N3/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 处理 方法 装置 终端 存储 介质 | ||
本申请公开了一种语音处理方法、装置、终端及存储介质,方法包括:获得待识别的目标语音数据;获得所述目标语音数据所属的目标用户;利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、终端及存储介质。
背景技术
很多社交软件都有语音转文字的功能。通常情况下,语音转文字后台采用的是同一个语音转文字的语音识别模型。
但是由于这个语音识别模型是通用的模型,因此,对不同用户均为同一种转换效果,由此会存在语音转换不准确的情况。
发明内容
有鉴于此,本申请提供一种语音处理方法、装置、终端及存储介质,以提高对语音处理的准确性。
为实现上述目的,一方面,本申请提供了一种语音处理方法,包括:
获得待识别的目标语音数据;
获得所述目标语音数据所属的目标用户;
利用所述目标用户对应的语音识别模型,对所述目标语音数据进行语音识别,以得到所述目标语音数据对应的目标文本数据;
其中,所述语音识别模型为利用所述目标用户的多个具有文本标签的第一语音样本对通用识别模型进行训练得到,所述通用识别模型为利用多个具有文本标签的第二语音样本对初始构建的通用识别模型进行训练得到。
在一种可能的实现方式中,获得所述目标语音数据所属的目标用户,包括:
获得第一语音集合中预设的每个第一语音数据,每个所述第一语音数据分别对应于一个所属用户;
利用用户分类模型,对所述目标语音数据和所述第一语音数据进行语音处理,以得到所述目标语音数据所属的目标用户,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件;
其中,所述用户分类模型为利用多个具有用户分类标签的语音样本组对初始构建的用户分类模型进行训练得到,所述语音样本组包含两个第三语音样本,所述用户分类标签表征所述语音样本组中的两个所述第三语音样本是否属于同一用户。
可选的,所述目标用户对应的第一语音数据与所述目标语音数据满足预设的相似条件,包括:
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度大于或等于预设的相似阈值;
和/或,
所述目标用户对应的第一语音数据与所述目标语音数据之间的相似度最大。
可选的,所述用户分类模型中至少包含卷积神经网络层、全联通层和分类层;
其中,所述卷积神经网络层用于对所述目标语音数据和所述第一语音数据分别进行语音特征提取,以得到所述目标语音数据对应的第一语音特征和所述第一语音数据对应的第二语音特征;
所述全联通层用于对所述第一语音特征和所述第二语音特征进行特征交互处理,以得到特征交互结果;
所述分类层用于根据所述特征交互结果,生成分类结果,所述分类结果表征所述目标语音数据和所述第一语音数据是否属于同一用户。
在一种可能的实现方式中,获得第一语音集合中的每个第一语音数据,包括:
获得终端上存储的第一语音集合,所述终端为需要对所述目标语音数据进行语音识别的设备;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010849414.7/2.html,转载请声明来源钻瓜专利网。