[发明专利]一种文本处理方法及装置在审
申请号: | 202010491174.8 | 申请日: | 2020-06-02 |
公开(公告)号: | CN113763961A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李杨;付彬;孙健;唐呈光;赵学敏 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/22;G10L15/16;G10L15/18;G10L15/06;G06F40/194;G06F40/232;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 王柳焜 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,应用于电子设备,所述方法包括:
接收用户输入的语音;
获取所述语音的识别文本和引导文本;
获取所述识别文本的第一拼音以及获取所述引导文本的第二拼音;
基于所述第一拼音、所述第二拼音以及所述引导文本,对所述识别文本进行纠错。
2.根据权利要求1所述的方法,其特征在于,
所述获取所述识别文本的第一拼音,包括:
将所述识别文本拆分为多个识别文本块,分别获取每一个识别文本块的识别拼音;
所述获取所述引导文本的第二拼音,包括:
将所述引导文本拆分为多个引导文本块,分别获取每一个引导文本块的引导拼音。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一拼音、所述第二拼音以及所述引导文本,对所述识别文本进行纠错,包括:
对于每一个识别文本块的识别拼音,获取所述识别文本块的识别拼音分别与各个引导文本块的引导拼音之间的差异程度;
在最小的差异程度大于预设阈值的情况下,依照差异程度由低至高的顺序选择预设数量个差异程度对应的引导文本块;
使用选择的引导文本块分别替换所述识别文本中的所述识别文本块,得到多个替换后的识别文本;
获取每一个替换后的识别文本的困惑度;
选择困惑度最小的替换后的识别文本作为识别文本的纠错版本。
4.根据权利要求3所述的方法,其特征在于,所述获取所述识别文本块的识别拼音分别与各个引导文本块的引导拼音之间的差异程度,包括:
对于每一个引导文本块的引导拼音,获取所述识别文本块的识别拼音的声母与所述引导文本块的引导拼音的声母之间的第一差异;
获取所述识别文本块的识别拼音的韵母与所述引导文本块的引导拼音的韵母之间的第二差异;
获取所述识别文本块的识别拼音的声调与所述引导文本块的引导拼音的声调之间的第三差异;
获取所述识别文本块的识别拼音与所述引导文本块的引导拼音之间的编辑距离;
根据所述第一差异、所述第二差异、所述第三差异以及所述编辑距离获取所述差异程度。
5.根据权利要求4所述的方法,其特征在于,所述获取所述识别文本块的识别拼音的声母与所述引导文本块的引导拼音的声母之间的第一差异,包括:
获取所述识别文本块的识别拼音中的各个声母的第一向量以及所述引导文本块的引导拼音中的各个声母的第二向量;
计算所述第一向量与所述第二向量之间的余弦距离,并作为所述第一差异。
6.根据权利要求5所述的方法,其特征在于,所述获取所述识别文本块的识别拼音中的各个声母的第一向量以及所述引导文本块的引导拼音中的各个声母的第二向量,包括:
在语音差异确定模型的网络参数中提取所述第一向量和所述第二向量;
其中,所述语音差异确定模型是基于多个样本数据集对待训练模型训练,直至待训练模型中的网络参数收敛后得到的,每一个样本数据集中包括两个样本词汇各自的拼音以及包括两个样本词汇的拼音之间的标注差异。
7.根据权利要求4所述的方法,其特征在于,所述获取所述识别文本块的识别拼音的韵母与所述引导文本块的引导拼音的韵母之间的第二差异,包括:
获取所述识别文本块的识别拼音中的各个韵母的第三向量以及所述引导文本块的引导拼音中的各个韵母的第四向量;
计算所述第三向量与所述第四向量之间的余弦距离,并作为所述第二差异。
8.根据权利要求7所述的方法,其特征在于,所述获取所述识别文本块的识别拼音中的各个韵母的第三向量以及所述引导文本块的引导拼音中的各个韵母的第四向量,包括:
在语音差异确定模型的网络参数中提取所述第三向量和所述第四向量;
其中,所述语音差异确定模型是基于多个样本数据集对待训练模型训练,直至待训练模型中的网络参数收敛后得到的,每一个样本数据集中包括两个样本词汇各自的拼音以及包括两个样本词汇的拼音之间的标注差异。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010491174.8/1.html,转载请声明来源钻瓜专利网。