[发明专利]用于基于语音的音频和文本对齐的系统和方法在审

申请号：	202110658488.7	申请日：	2021-06-15
公开（公告）号：	CN113112996A	公开（公告）日：	2021-07-13
发明（设计）人：	周昌印;余飞	申请（专利权）人：	视见科技（杭州）有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/26
代理公司：	北京市柳沈律师事务所 11105	代理人：	巫资青
地址：	310000 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于基于语音音频文本对齐系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于音频和文本对齐的系统，包括：

音频特征生成器，所述音频特征生成器包括被配置成将文本输入转换成文本转语音输入波形的文本转语音模块；

音频特征提取器，所述音频特征提取器被配置成从音频输入波形和所述文本转语音输入波形提取特有音频特征；

对齐模块，所述对齐模块被配置成比较从所述音频输入波形提取的特有音频特征和从所述文本转语音波形提取的特有音频特征，以便在时间上对齐所述文本输入的显示版本与所述音频输入。

2.根据权利要求1所述的系统，还包括：

麦克风，所述麦克风被配置成接收音频输入并提供所述音频输入波形；

文本输入接口，所述文本输入接口被配置成接收所述文本输入；以及

显示器，所述显示器被配置成显示所述文本输入的显示版本。

3.根据权利要求1所述的系统，还包括：

音频特征参考数据，其中，所述音频特征提取器、所述音频特征生成器或所述对齐模块中的至少一个被配置成利用所述音频特征参考数据。

4.根据权利要求3所述的系统，其中，所述音频特征参考数据包括以下中的至少一者：

国际语音字母表（IPA）音频特征；

中文拼音音频特征；或者

与声音波形相关的特征。

5.根据权利要求1所述的系统，其中，所述音频特征提取器包括：

深度神经网络（DNN），所述深度神经网络被配置成基于所述音频输入波形或所述文本转语音输入波形的加窗频率曲线图提取所述特有音频特征。

6.根据权利要求5所述的系统，其中，基于音频特征训练数据训练所述DNN。

7.根据权利要求5所述的系统，其中，所述DNN被配置成提取所述特有音频特征而无需事先理解语义。

8.根据权利要求1所述的系统，其中，所述对齐模块包括如下至少一者：

隐马尔科夫模型；

深度神经网络（DNN）；或者

加权动态编程模型；以便在时间上对齐所述文本输入的显示版本与所述音频输入。

9.根据权利要求1所述的系统，其中，所述对齐模块进一步被配置成基于音频输入波形特征、文本转语音输入波形特征和预定匹配阈值的比较来确定时间匹配。

10.根据权利要求1所述的系统，还包括具有至少一个处理器和存储器的控制器，其中，所述至少一个处理器执行存储器中存储的指令，以便执行指令，所述指令包括：

操作如下至少一者：所述音频特征提取器、所述音频特征生成器、所述对齐模块或显示器。

11.一种用于音频和文本对齐的方法，包括：

基于音频输入提供音频输入波形；

接收文本输入；

将所述文本输入转换成文本转语音输入波形；

利用音频特征提取器从所述音频输入波形和所述文本转语音输入波形提取特有音频特征；

比较音频输入波形特征和文本转语音输入波形特征；以及

基于所述比较，在时间上对齐所述文本输入的显示版本与所述音频输入。

12.根据权利要求11所述的方法，还包括：

由显示器显示所述文本输入的显示版本。

13.根据权利要求11所述的方法，还包括：

由麦克风接收所述音频输入。

14.根据权利要求11所述的方法，还包括：

接收音频特征参考数据，其中，所述转换步骤、所述提取步骤或所述比较步骤的至少一个是至少部分地基于所述音频特征参考数据执行的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于视见科技（杭州）有限公司，未经视见科技（杭州）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110658488.7/1.html，转载请声明来源钻瓜专利网。

上一篇：脱皮蛎虾仁包装设备
下一篇：一种基于自适应空间剖分的离散点云重复点快速查找方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于基于语音的音频和文本对齐的系统和方法在审

专利文献下载