[发明专利]一种social signal的识别方法和装置在审

申请号：	201811292469.1	申请日：	2018-11-01
公开（公告）号：	CN111210804A	公开（公告）日：	2020-05-29
发明（设计）人：	张鹏	申请（专利权）人：	普天信息技术有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/04;G10L25/30
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	王双;王琦
地址：	100080 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 social signal 识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种social signal的识别方法，其特征在于，该方法包括：

将待检测的语音信号划分为多个音素块，每个音素块包括N个音频帧；

以音素块为单位对所述语音信号进行CNN编码处理，并将编码结果输入BLSTM神经网络进行处理，得到经过标记的CNN编码结果；

将经过标记的CNN编码结果进行CRF处理，得到各个音素块以及与每个音素块对应的标记；

根据各个音素块对应的标记识别social signal及其起止时间；

其中，所述标记为语音、笑声的开始、笑声的中间或笑声的结尾，音素块对应的标记用于指示该音素块中的语音信号特性。

2.根据权利要求1所述的方法，其特征在于，训练所述CNN和BLSTM神经网络的方式包括：

将用于训练的语音信号划分成多个音素块，根据每个音素块内语音信号的特性标记各个音素块，将其作为音素块的实际标记；

将所述用于训练的语音信号以音素块为单位进行CNN编码处理，并将编码结果输入当前BLSTM神经网络进行处理，得到经过标记的CNN编码结果；将经过标记的CNN编码结果进行CRF处理，得到各个音素块以及与每个音素块对应的预测标记；将每个音素块对应的预测标记与实际标记进行比较，计算损失函数，并反向传播更新BLSTM神经网络参数，直到损失函数收敛或预测标记的准确性达到设定要求，停止训练。

3.根据权利要求2所述的方法，其特征在于，所述损失函数包括S和L-I的损失部分L_SI以及L-B和L-E的损失部分L_BE：

其中，L_SI为交叉熵损失函数，|N_gold-N_pred+1|表示语音语料库中标有的socialsignal的语音段数量与预测出来的social signal语音段数量的差值加1，N_SI表示S、L-I标记的数量，N_BE表示L-B、L-E标记的数量，α用于控制N_SI和N_BE的权重。

4.根据权利要求2所述的方法，其特征在于，所述根据每个音素块内语音信号的特性标记各个音素块包括：

将每个音素块内的各个帧进行标记，将任一音素块内占数量优势的帧标记作为该音素块的标记。

5.根据权利要求1或2所述的方法，其特征在于，相邻的音素块间有M块重叠，所述M为预设的正整数；

所述以音素块为单位对所述语音信号进行CNN编码处理时，CNN的卷积核宽度为N，高度为1，步长为N-M。

6.一种social signal的识别装置，其特征在于，该装置包括：CNN编码单元、BLSTM神经网络处理单元、CRF处理单元和判定单元；

所述CNN编码单元，用于将待检测的语音信号划分为多个音素块，以音素块为单位对所述语音信号进行CNN编码处理；其中，每个音素块包括N个音频帧，所述N为预设的正整数；

所述BLSTM神经网络处理单元，用于在信号检测过程中，将所述CNN编码单元输出的编码结果进行BLSTM神经网络的处理，得到经过标记的CNN编码结果；其中，所述标记为语音、笑声的开始、笑声的中间或笑声的结尾；

所述CRF处理单元，用于在信号检测过程中，将经过标记的CNN编码结果进行CRF处理，得到各个音素块以及与每个音素块对应的标记；其中，音素块对应的标记用于指示该音素块中的语音信号特性；

所述判定单元，用于根据各个音素块对应的标记识别social signal及其起止时间。

7.根据权利要求6所述的装置，其特征在于，所述装置进一步包括训练单元；

所述CNN编码单元，还用于将用于训练的语音信号划分成多个音素块，并将所述用于训练的语音信号以音素块为单位进行CNN编码处理；

所述BLSTM神经网络处理单元，还用于在BLSTM训练检测过程中，将所述CNN编码单元输出的编码结果进行BLSTM神经网络的处理，得到经过标记的CNN编码结果；

所述CRF处理单元，还用于在BLSTM训练过程中，将经过标记的CNN编码结果进行CRF处理，得到各个音素块以及与每个音素块对应的标记；

所述训练单元，用于在BLSTM训练过程中，根据用于训练的语音信号划分成的每个音素块内语音信号的特性标记各个音素块，将其作为音素块的实际标记；还用于将所述CRF处理单元在训练过程中输出的每个音素块对应的预测标记与实际标记进行比较，计算损失函数，并反向传播更新BLSTM神经网络参数，直到损失函数收敛或预测标记的准确性达到设定要求，停止训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司，未经普天信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811292469.1/1.html，转载请声明来源钻瓜专利网。

上一篇：环氧树脂、环氧树脂组合物、环氧树脂固化物和复合材料
下一篇：报警呼叫的处理方法、系统及具有存储功能的装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种social signal的识别方法和装置在审

专利文献下载