[发明专利]一种social signal的识别方法和装置在审

专利信息
申请号: 201811292469.1 申请日: 2018-11-01
公开(公告)号: CN111210804A 公开(公告)日: 2020-05-29
发明(设计)人: 张鹏 申请(专利权)人: 普天信息技术有限公司
主分类号: G10L15/02 分类号: G10L15/02;G10L15/04;G10L25/30
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 王双;王琦
地址: 100080 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 social signal 识别 方法 装置
【说明书】:

本申请公开了一种social signal的识别方法,包括:将待检测的语音信号划分为多个音素块,每个音素块包括N个音频帧;以音素块为单位对所述语音信号进行CNN编码处理,并将编码结果输入BLSTM神经网络进行处理,得到经过标记的CNN编码结果;将经过标记的CNN编码结果进行CRF处理,得到各个音素块以及与每个音素块对应的标记;根据各个音素块对应的标记识别social signal及其起止时间。应用本申请,能够识别social signal及其起止时间。

技术领域

本申请涉及语音信号处理技术,特别涉及一种social signal的识别方法和装置。

背景技术

Social signal即谈话内容中的笑声、嗯啊一类的停顿音。传统的social signal识别算法是基于帧级别的语音进行分析处理,即对语音的每一帧进行信号分析,做信号识别等工作。

随着深度学习的兴起,有人提出了基于BLSTM-CTC的分析方法进行Social signal的识别。图1为基于BLSTM-CTC进行Social signal识别方法的网络结构示意图。

如图1所示,该方法由BLSTM神经网络层和CTC解码层两部分组成。LSTM是长短期记忆网络(Long Short Term Memory)的简称,LSTM通过引入自训练来产生梯度长时间持续流动的路径,其自循环的权重视上下文而定,因此LSTM可以自动学习长程依赖信息并抛弃冗余信息。BLSTM是双向长短期记忆网络(Bi-direction LSTM)的简称。该网络的正向部分接受语音信号的正向输入,反向部分接受语音信号序列的反向输入。这样BLSTM的输入就结合了一段语音的前向和后向的信息,更好的结合了前后帧音素的信息。因此使用BLSTM能够获得很好的效果。

CTC是Connectionist Temporal Classification的简称,是一种典型的时序分类算法。该方法允许语音输出空白符,只要最终解码得到的序列是目标序列就算解码正确,而忽略具体的序列内容是否重复等。因此最终得到的预测结果只是一串目标序列,而忽略目标文字是由哪个帧得到的。应用到social signal领域也就意味着只能检测检测一段语音是否包含social signal而无法检测其起止时间。这在实际应用中是很鸡肋的。

图1所示的方法能够准确预测social signal在其持续时间内是否发生,但无法得知其起止时间。也就是说,基于BLSTM-CTC方法的最终结果是识别出某段音频内是否包含social signal,但其开始时间和终止时间未知,因此无法用于实际场景。

发明内容

本申请提供一种social signal的识别方法和装置,能够高效检测social signal的起止时间。

为实现上述目的,本申请采用如下技术方案:

一种social signal的识别方法,包括:

将待检测的语音信号划分为多个音素块,每个音素块包括N个音频帧;

以音素块为单位对所述语音信号进行CNN编码处理,并将编码结果输入BLSTM神经网络进行处理,得到经过标记的CNN编码结果;

将经过标记的CNN编码结果进行CRF处理,得到各个音素块以及与每个音素块对应的标记;

根据各个音素块对应的标记识别social signal及其起止时间;

其中,所述标记为语音、笑声的开始、笑声的中间或笑声的结尾,音素块对应的标记用于指示该音素块中的语音信号特性。

较佳地,训练所述CNN和BLSTM神经网络的方式包括:

将用于训练的语音信号划分成多个音素块,根据每个音素块内语音信号的特性标记各个音素块,将其作为音素块的实际标记;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811292469.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top