[发明专利]用于获取信息的方法及装置有效
申请号: | 201811198500.5 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109410918B | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 钱胜;王知践;李俊博 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08;G10L15/18;G10L15/26 |
代理公司: | 11204 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频序列 语音特征 拼音信息 语音信号 获取信息 拼音单元 拼音识别 文字信息 数据处理量 存储空间 单个文字 匹配 集合 查找 申请 | ||
本申请实施例公开了用于获取信息的方法。该方法的一具体实施方式包括:从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字;根据上述拼音信息查找对应上述待处理语音信号的文字信息。该实施方式降低了获取拼音信息的数据处理量和存储空间,提高了获取文字信息的准确性。
技术领域
本申请实施例涉及语音识别技术领域,具体涉及用于获取信息的方法及装置。
背景技术
语音识别技术能够将语音信号转换为文字信息,进而对文字信息进行处理,以实现对应的数据处理。用户可以通过语音信号对带有语音识别功能的智能设备实现远距离操控。尤其对于不易手动输入信息或用户无法输入信息的场合,语音识别技术极大地提高了信息交流的效率。
发明内容
本申请实施例提出了用于获取信息的方法及装置。
第一方面,本申请实施例提供了一种用于获取信息的方法,该方法包括:从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字,上述拼音单元包括声母音素、与声母音素匹配的韵母音素、音调标识,上述音调标识用于指示由声母音素和韵母音素组成的拼音信息的发音特征;根据上述拼音信息查找对应上述待处理语音信号的文字信息。
在一些实施例中,上述将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,包括:从上述语音特征音频序列中每间隔第一设定数量帧提取一帧初始语音帧,得到初始语音帧序列;将上述初始语音帧序列中相邻的第二设定数量帧的初始语音帧合并为二次语音帧序列。
在一些实施例中,上述将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,包括:获取上述二次语音帧序列的语音幅值波形图;从上述语音幅值波形图中筛选出对应幅值极值的尖峰语音帧,得到尖峰语音帧序列;对于上述尖峰语音帧序列中的尖峰语音帧,从上述拼音单元集合中匹配出与该尖峰语音帧对应的目标拼音单元,并通过该目标拼音单元确定该尖峰语音帧对应的目标拼音信息;按照目标拼音信息对应的尖峰语音帧在上述尖峰语音帧序列中的顺序对目标拼音信息进行排序,得到对应上述语音特征音频序列的拼音信息。
在一些实施例中,上述拼音单元集合通过以下步骤构建:获取声母音素集合和韵母音素集合;对于上述声母音素集合中的声母音素,从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元。
在一些实施例中,上述从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素,得到对应该声母音素的拼音单元,包括:从上述韵母音素集合中筛选出与该声母音素匹配的韵母音素得到韵母音素子集合;确定该声母音素与韵母音素子集合中韵母音素组成的拼音信息的音调标识得到音调标识集合;将该声母音素、韵母音素子集合中韵母音素和音调标识集合中的音调标识组合成对应该声母音素的拼音单元。
第二方面,本申请实施例提供了一种用于获取信息的装置,该装置包括:语音特征音频序列获取单元,被配置成从待处理语音信号中获取语音特征音频序列,上述语音特征音频序列用于表征待处理语音信号对应的文字;拼音信息获取单元,被配置成将上述语音特征音频序列导入拼音识别模型,得到对应上述语音特征音频序列的拼音信息,上述拼音识别模型用于通过拼音单元集合匹配出对应语音特征音频序列的拼音信息,上述拼音单元用于识别单个文字,上述拼音单元包括声母音素、与声母音素匹配的韵母音素、音调标识,上述音调标识用于指示由声母音素和韵母音素组成的拼音信息的发音特征;文字信息获取单元,被配置成根据上述拼音信息查找对应上述待处理语音信号的文字信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811198500.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于改进型胶囊网络的语音数据分类方法
- 下一篇:一种智能家居控制系统