[发明专利]语音识别方法及装置在审
申请号: | 201910047340.2 | 申请日: | 2019-01-18 |
公开(公告)号: | CN111462738A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 张帆;郑梓豪;胡于响;姜飞俊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 | ||
1.一种语音识别方法,包括:
获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量;
获取所述文本向量的句法特征;
根据所述句法特征,获取所述文本数据中包含的至少一个文本子句,以及,获取每一个所述文本子句的领域信息;
至少根据每一个所述文本子句的领域信息,识别所述语音输入数据中的语音指令。
2.根据权利要求1所述的方法,其中,所述获取与语音输入数据对应的文本数据和所述文本数据对应的文本向量,包括:
获取语音输入数据,并生成与所述语音输入数据对应的文本数据;
生成所述文本数据中的每一个字词对应的字词向量;
根据每一个字词对应的字词向量,生成所述文本数据对应的文本向量。
3.根据权利要求2所述的方法,其中,所述获取所述文本向量的句法特征,包括:
对所述文本向量进行特征提取,获取所述文本向量的句法特征。
4.根据权利要求3所述的方法,其中,所述对所述文本向量进行特征提取,获取所述文本向量的句法特征,包括:
对所述文本向量中的每一个字词对应的字词向量进行特征提取,获取每一个字词的句法特征。
5.根据权利要求4所述的方法,其中,所述根据所述句法特征,获取所述文本数据中包含的至少一个文本子句,包括:
根据每一个字词的句法特征,获取每一个字词的标签,其中,所述标签包括结束标签;
根据每一个字词的标签,获得所述文本数据的序列标注;
根据所述序列标注中的结束标签,获取所述文本数据中包含的至少一个文本子句。
6.根据权利要求5所述的方法,其中,所述获取每一个所述文本子句的领域信息,包括:
根据所述文本向量的句法特征,获取每一个所述文本子句对应的领域特征;
对每一个所述文本子句的领域特征,在每个特征维度上进行最大特征值提取,生成每一个所述文本子句的领域特征向量;
根据每一个所述文本子句的领域特征向量,确定当前文本子句的领域信息。
7.根据权利要求6所述的方法,其中,所述根据所述文本向量的句法特征,获取每一个所述文本子句对应的领域特征,包括:
根据所述文本向量的句法特征,获取所述文本向量的领域特征;
根据每一个所述文本子句所包含的字词的信息,从所述文本向量的领域特征中获取每一个所述文本子句对应的领域特征。
8.根据权利要求1-7任一项所述的方法,其中:
通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取,获取所述文本向量的句法特征;
通过所述卷积神经网络模型的句边界探测部分根据所述句法特征,获取所述文本数据中包含的至少一个文本子句;通过所述卷积神经网络模型的领域分类部分根据所述句法特征和每一个所述文本子句的信息,获取每一个所述文本子句的领域信息;
其中,所述句边界探测部分和所述领域分类部分共享所述特征提取部分提取的句法特征。
9.根据权利要求8所述的方法,其中,所述通过卷积神经网络模型的特征提取部分对所述文本向量进行特征提取,获取所述文本向量的句法特征,包括:
对输入的向量进行批规范化操作,生成规范化的向量;
对所述规范化的向量进行非线性化处理;
通过卷积层对非线性处理后的所述向量进行特征提取,获得初始特征;
对所述初始特征进行残差分析处理,根据所述残差分析处理结果获得所述向量的句法特征并输出;
返回所述对输入的向量进行批规范化操作的步骤继续执行,直至获得所述文本向量的句法特征。
10.根据权利要求9所述的方法,其中,所述特征提取部分至少包括12个卷积层;通过线性门函数对所述规范化的向量进行非线性化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910047340.2/1.html,转载请声明来源钻瓜专利网。