[发明专利]一种用于对语音信号进行语义识别的系统及方法在审
申请号: | 202011412947.5 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112420028A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 程钢;张飞;贾岩峰;韩慎勇;丁正;顾晓东;祝敬安;韦红 | 申请(专利权)人: | 上海欣方智能系统有限公司;上海欣方软件有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/18;G10L15/26 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 牛峥;王丽琴 |
地址: | 201203 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 语音 信号 进行 语义 识别 系统 方法 | ||
1.一种用于对语音信号进行语义识别的系统,其特征在于,所述系统设置在电信通信网络中,包括:基于注意力机制的端到端系统LAS、BERT模型及语音文本混合子系统,其中,
LAS,用于获取电信通讯网络中的语音信号,进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型,用于对LAS输入的对应的文本信息进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统,用于对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行分类处理,得到语义识别结果。
2.如权利要求1所述的系统,其特征在于,所述LAS是采用基于注意力机制的神经网络训练得到的,由编码模块、注意力机制模块及解码模块组成,其中,
编码模块,用于对电信通讯网络中的语音信号进行编码,形成高维特征表示;
注意力机制模块,用于对所形成的高维特征表示进行语义预测相关部分的提取后,将提取后的高维特征表示发送给解码模块;
解码模块,用于接收注意力机制模块发送的提取后的高维特征表示,进行语义预测,得到高维声学特征表示及对应的文本信息。
3.如权利要求1或2所述的系统,其特征在于,所述LAS在训练时采用
进行训练,
其中,θ表示LAS采用的神经网络参数,x表示语音信号,y表示语音信号对应的文本信息。
4.如权利要求1所述的系统,其特征在于,所述BERT模型采用无监督文本预料进行预训练后得到。
5.如权利要求1所述的系统,其特征在于,所述语音文本混合子系统采用神经网络训练得到,包括:池化层模块及多层感知MLP自然语言神经子网络,其中,
池化层模块,用于分别对LAS输入的高维声学特征表示及BERT模型输入的高维文本特征表示进行池化后,输入到MLP自然语言神经子网络中;
MLP自然语言神经子网络,用于对经过池化的高维声学特征表示及高维文本特征表示进行处理,得到语义识别结果。
6.如权利要求1所述的系统,其特征在于,所述系统应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统,还用户进行分类处理,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
7.一种用于对语音信号进行语义识别的方法,其特征在于,该方法包括:
在电信通讯网络中设置基于LAS、BERT模型及语音文本混合子系统;
电信通讯网络中的语音信号输入到LAS中进行语音识别后,得到高维声学特征表示及对应的文本信息,将语音识别结果输入给BERT模型,将高维声学特征表示输入给语音文本混合子系统中;
BERT模型对输入的对应的文本信息果进行处理得到高维文本特征表示后,输入给语音文本混合子系统;
语音文本混合子系统对输入的高维声学特征表示及高维文本特征表示进行分类处理,得到语义识别结果。
8.如权利要求7所述的方法,其特征在于,所述LAS是采用基于注意力机制的神经网络训练得到的;
所述BERT模型是采用无监督文本预料经过预训练后得到的;
所述语音文本混合子系统采用神经网络训练得到的。
9.如权利要求7所述的方法,其特征在于,所述方法应用在所述电信通讯网络中的反电信诈骗业务中,所述语音文本混合子系统进行分类处理时,得到的语义识别结果为电信诈骗语音或非电信诈骗语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海欣方智能系统有限公司;上海欣方软件有限公司,未经上海欣方智能系统有限公司;上海欣方软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011412947.5/1.html,转载请声明来源钻瓜专利网。