[发明专利]语音识别方法、对话模型的数据处理方法及语音处理方法在审
申请号: | 202211415343.5 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115762524A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 马文涛;武玉川;李永彬;黄非 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L15/02 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 金鹏 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 对话 模型 数据处理 处理 | ||
本说明书实施例提供语音识别方法、对话模型的数据处理方法及语音处理方法,其中语音识别方法包括:获取待识别语音,将待识别语音输入语音识别模型,获得待识别语音的识别文本,并确定识别文本对应的文字发音序列,将识别文本和文字发音序列输入对话模型,获得目标文本,其中,对话模型是利用预训练文本的噪声文本以及噪声文本对应的文字发音序列训练得到,噪声文本是对预训练文本的文字发音序列进行模糊处理得到。结合了识别文本对应的文字发音序列,深入挖掘识别文本的特征信息,提升目标文本的准确度,并利用噪声文本以及噪声文本对应的文字发音序列训练对话模型,通过更多的特征信息来提升对话模型的噪声鲁棒性、目标文本的准确度和用户体验。
技术领域
本说明书实施例涉及语音数据处理技术领域,特别涉及一种语音识别方法。
背景技术
随着互联网技术的发展,人机交互的形式逐渐从早期的纯文本交互形式,发展向集文本、语音、图像等多种模态的全面交互形式。
目前,语音交互依赖于语音识别技术,目前语音识别技术主要是基于语音识别模型获得语音的识别文本,因而,语音交互的交互体验与语音识别模型的模型性能直接相关联,为了提升语音识别的准确度,在语音识别模型的模型性能提升较为困难的基础上,通过增加文本纠错模块,来提升识别文本的准确性。
然而,文本纠错模块相比于语音识别模型,未能提取得到更多的特征信息,导致文本纠错模块的纠错能力难以明显提升,并且文本纠错模块一旦未能成功纠错,得到的目标文本存在错误累积问题,语音识别的准确度提升不足,语音交互的用户体验不足。因而,亟需一种可以更好提升语音识别的准确度和语音交互的用户体验的语音识别方法。
发明内容
有鉴于此,本说明书实施例提供了一种语音识别方法。本说明书同时涉及一种对话模型的数据处理方法,一种语音处理方法,一种语音识别装置,一种对话模型的数据处理装置,一种语音处理装置,一种语音处理系统,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种语音识别方法,包括:
获取待识别语音;
将待识别语音输入语音识别模型,获得待识别语音的识别文本,并确定识别文本对应的文字发音序列;
将识别文本和文字发音序列输入对话模型,获得目标文本,其中,对话模型是利用预训练文本的噪声文本以及噪声文本对应的文字发音序列训练得到,噪声文本是对预训练文本的文字发音序列进行模糊处理得到。
根据本说明书实施例的第二方面,提供了一种对话模型的数据处理方法,应用于云侧设备,包括:
获取预训练集,其中,预训练集包括多个预训练文本;
从预训练集中提取第一预训练文本,其中,第一预训练文本为多个预训练文本中的任一个;
确定第一预训练文本对应的第一文字发音序列;
对第一文字发音序列进行模糊处理,获得第一预训练文本的噪声文本,并确定噪声文本的第二文字发音序列;
提取噪声文本的文本特征和第二文字发音序列的发音特征;
将文本特征和发音特征输入对话模型,利用对话模型进行文本预测,获得预测文本;
根据预测文本,计算损失值;
基于损失值,调整对话模型的模型参数,并返回执行从预训练集中提取第一预训练文本的步骤,直至达到训练停止条件,获得训练后的对话模型的模型参数;
向端侧设备发送对话模型的模型参数。
根据本说明书实施例的第三方面,提供了一种语音处理方法,包括:
获取客户端发送的待处理语音;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211415343.5/2.html,转载请声明来源钻瓜专利网。