[发明专利]一种基于语音时域指纹的对讲模式开启方法无效
申请号: | 201310288463.8 | 申请日: | 2013-07-10 |
公开(公告)号: | CN103458323A | 公开(公告)日: | 2013-12-18 |
发明(设计)人: | 郑静晨;郝昱文;李晓雪 | 申请(专利权)人: | 郑静晨;郝昱文;李晓雪 |
主分类号: | H04Q5/24 | 分类号: | H04Q5/24;G10L17/00;G10L17/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100039*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 时域 指纹 对讲 模式 开启 方法 | ||
技术领域
本发明涉及信号处理和数据通信等领域,具体的说,本发明给出了一种基于语音时域指纹的对讲模式开启方法,对讲机可自动识别用户的关键语音,然后开启对讲模式,用户无需在讲话前按下对讲按钮,便可直接对讲,从而使得用户的双手可以更加自由地进行其它操作。
背景技术
市面上常见的对讲机,在用户需要讲话时,需要按下对讲按钮,才能将自己的语音送入对讲网络。
由于用户在对讲时,有一只手需要按住对讲按钮,这种使用模式很大程度上限制了用户的双手,使得用户无法自由支配自己的双手,在紧急情况下使得对讲机成为了一个必须要使用但又不能使用的工具,严重时甚至可能引起重大事故。
本发明给出了一种基于语音时域指纹的对讲模式开启方法,对讲机可自动识别用户的语音,然后开启对讲模式,用户无需在讲话前按下对讲按钮,便可直接对讲,从而使得用户的双手可以更加自由地进行其它操作。
发明内容
本发明给出了一种基于语音时域指纹的对讲模式开启方法,对讲机可自动识别用户的语音,然后开启对讲模式,用户无需在讲话前按下对讲按钮,便可直接对讲,从而使得用户的双手可以更加自由地操作,其具体工作方式如下:
(1) 用户按下训练模式按钮,在安静的环境中,向对讲机输入一段语音,然后放开训练模式按钮,重复该操作N遍;
(2) 第一次样本采样时,为确保音频的有效性,录下音频后,需要对音频进行截短,截取其中的有效部分;
(3) 头部的截取方法为:从第一个采样点开始,截取长度为H的片段,每次后移一个采样点,重复K次,计算各片段能量 ,从而形成向量 ,向量斜率计算方法为,经过多次实验验证,设定门限,从的点开始截取音频。;
(4) 尾部的截取方法为:从最后一个采样点开始,截取长度为H的片段,每次前移一个采样点,重复K次,计算各片段能量,从而形成向量,向量斜率计算方法为,经过多次实验验证,设定门限,从的点开始舍弃音频;
(5) 去掉头部和尾部后,音频的长度为M*L个采样点;
(6) 由于每次按下训练按钮和开始发声的时间不一致,为了便于后期计算方便,需要对各音频段进行对齐,提取其中的有效长度,计算长度时,以第一次样本长度为标准样本,如果后期样本长度比第一次样本短,则在样本前后填充0值,确保样本长度长于第一次样本;
(7) 计算第i次样本与第一次样本的第m次卷积:,其中,截取音频中卷积能量最大的M*L个采样点作为第i个音频样本;
(8) 按照50%的重叠率,将各样本音频A分割为长度为M语音片段,每个样本音频共分割为L个片段,计算出第i个音频第j个片段的语音能量为:,将保存为音频样本,得到样本音频各分段能量的向量,即该段的语音能量指纹;
(9) 计算样本音频相应片段的能量期望值为:,从而得到样本音频分段能量的期望向量,即该段的语音能量期望指纹;
(10) 当用户准备向对讲网络输入话音时,先向对讲机输入训练时使用的语音,从而采集到现场语音,然后按照样本语音的处理方法,求得现场语音各分段的能量:,得到现场音频分段能量的向量,即该段的语音能量指纹;
(11) 计算现场音频各分段的能量与样本音频各分段能量期望的归一化相关系数:;
(12) 经过多个样本测试,确定门限值,如果,则开启对讲模式,允许用户向对讲网络输入语音,否则作下一步操作操作;
(13) 计算现场音频各分段的能量与各样本音频各分段能量的归一化相关系数:,如果发生的次数大于N/2,则开启对讲模式,允许用户向对讲网络输入语音,否则回到等待模式。
附图说明
无。
具体实施方式
[0007] 本发明给出了一种基于语音时域指纹的对讲模式开启方法,对讲机可自动识别用户的语音,然后开启对讲模式,用户无需在讲话前按下对讲按钮,便可直接对讲,从而使得用户的双手可以更加自由地操作,可以通过在对讲机中增加一个软件模块的方法进行实现,具体的实现方式如下:
(1) 用户按下训练模式按钮,在安静的环境中,向对讲机输入一段语音,然后放开训练模式按钮,重复该操作N遍,软件模块对录音的数据进行存储;
(2) 第一次样本采样时,为确保音频的有效性,录下音频后,需要对音频进行截短,截取其中的有效部分;
(3) 去掉头部和尾部后,音频的长度为M*L个采样点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑静晨;郝昱文;李晓雪,未经郑静晨;郝昱文;李晓雪许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310288463.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于化工装置的数字式电弧光保护系统
- 下一篇:合片工作台