[发明专利]一种social signal的识别方法和装置在审
申请号: | 201811292469.1 | 申请日: | 2018-11-01 |
公开(公告)号: | CN111210804A | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/04;G10L25/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 王双;王琦 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 social signal 识别 方法 装置 | ||
1.一种social signal的识别方法,其特征在于,该方法包括:
将待检测的语音信号划分为多个音素块,每个音素块包括N个音频帧;
以音素块为单位对所述语音信号进行CNN编码处理,并将编码结果输入BLSTM神经网络进行处理,得到经过标记的CNN编码结果;
将经过标记的CNN编码结果进行CRF处理,得到各个音素块以及与每个音素块对应的标记;
根据各个音素块对应的标记识别social signal及其起止时间;
其中,所述标记为语音、笑声的开始、笑声的中间或笑声的结尾,音素块对应的标记用于指示该音素块中的语音信号特性。
2.根据权利要求1所述的方法,其特征在于,训练所述CNN和BLSTM神经网络的方式包括:
将用于训练的语音信号划分成多个音素块,根据每个音素块内语音信号的特性标记各个音素块,将其作为音素块的实际标记;
将所述用于训练的语音信号以音素块为单位进行CNN编码处理,并将编码结果输入当前BLSTM神经网络进行处理,得到经过标记的CNN编码结果;将经过标记的CNN编码结果进行CRF处理,得到各个音素块以及与每个音素块对应的预测标记;将每个音素块对应的预测标记与实际标记进行比较,计算损失函数,并反向传播更新BLSTM神经网络参数,直到损失函数收敛或预测标记的准确性达到设定要求,停止训练。
3.根据权利要求2所述的方法,其特征在于,所述损失函数包括S和L-I的损失部分LSI以及L-B和L-E的损失部分LBE:
其中,LSI为交叉熵损失函数,|Ngold-Npred+1|表示语音语料库中标有的socialsignal的语音段数量与预测出来的social signal语音段数量的差值加1,NSI表示S、L-I标记的数量,NBE表示L-B、L-E标记的数量,α用于控制NSI和NBE的权重。
4.根据权利要求2所述的方法,其特征在于,所述根据每个音素块内语音信号的特性标记各个音素块包括:
将每个音素块内的各个帧进行标记,将任一音素块内占数量优势的帧标记作为该音素块的标记。
5.根据权利要求1或2所述的方法,其特征在于,相邻的音素块间有M块重叠,所述M为预设的正整数;
所述以音素块为单位对所述语音信号进行CNN编码处理时,CNN的卷积核宽度为N,高度为1,步长为N-M。
6.一种social signal的识别装置,其特征在于,该装置包括:CNN编码单元、BLSTM神经网络处理单元、CRF处理单元和判定单元;
所述CNN编码单元,用于将待检测的语音信号划分为多个音素块,以音素块为单位对所述语音信号进行CNN编码处理;其中,每个音素块包括N个音频帧,所述N为预设的正整数;
所述BLSTM神经网络处理单元,用于在信号检测过程中,将所述CNN编码单元输出的编码结果进行BLSTM神经网络的处理,得到经过标记的CNN编码结果;其中,所述标记为语音、笑声的开始、笑声的中间或笑声的结尾;
所述CRF处理单元,用于在信号检测过程中,将经过标记的CNN编码结果进行CRF处理,得到各个音素块以及与每个音素块对应的标记;其中,音素块对应的标记用于指示该音素块中的语音信号特性;
所述判定单元,用于根据各个音素块对应的标记识别social signal及其起止时间。
7.根据权利要求6所述的装置,其特征在于,所述装置进一步包括训练单元;
所述CNN编码单元,还用于将用于训练的语音信号划分成多个音素块,并将所述用于训练的语音信号以音素块为单位进行CNN编码处理;
所述BLSTM神经网络处理单元,还用于在BLSTM训练检测过程中,将所述CNN编码单元输出的编码结果进行BLSTM神经网络的处理,得到经过标记的CNN编码结果;
所述CRF处理单元,还用于在BLSTM训练过程中,将经过标记的CNN编码结果进行CRF处理,得到各个音素块以及与每个音素块对应的标记;
所述训练单元,用于在BLSTM训练过程中,根据用于训练的语音信号划分成的每个音素块内语音信号的特性标记各个音素块,将其作为音素块的实际标记;还用于将所述CRF处理单元在训练过程中输出的每个音素块对应的预测标记与实际标记进行比较,计算损失函数,并反向传播更新BLSTM神经网络参数,直到损失函数收敛或预测标记的准确性达到设定要求,停止训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811292469.1/1.html,转载请声明来源钻瓜专利网。