首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种多人语音混合中目标说话人估计方法及系统有效

申请号：	201810610015.8	申请日：	2018-06-13
公开（公告）号：	CN108766459B	公开（公告）日：	2020-07-17
发明（设计）人：	刘宏哲;张启坤	申请（专利权）人：	北京联合大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0308;G10L25/03;G10L25/21;G10L25/24
代理公司：	北京驰纳智财知识产权代理事务所(普通合伙) 11367	代理人：	谢亮
地址：	100101 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人语混合目标说话估计方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多人语音混合中目标说话人估计方法，包括使用麦克风阵列采集语音信号得到混合信号x，其特征在于，还包括以下步骤：

步骤1：使用FastICA算法进行多人混合语音分离，得到N个分离语音y；

步骤2：提取多个语音特征；

步骤3：进行语音特征归一化；步骤4：归一化的语音特征加权融合；融合构成各个人的语音特征矢量x_n，其中，λ为对应的加权参数，为归一化的说话时长，为归一化的说话次数、为归一化的短时能量，为归一化的MFCC系数；

步骤5：使用高斯混合模型进行加权参数优化；

步骤6：使用期望最大化算法EM算法进行高斯混合模型估计；

步骤7：输出目标语音。

2.如权利要求1所述的多人语音混合中目标说话人估计方法，其特征在于：所述步骤1包括以下子步骤：

步骤11：对混合观测信号x中心化去均值，

其中，i＝1.....n，n为实系数；

步骤12：白化处理去混合语音之间的相关性，

z＝Vx＝ED^-1/2E^Tx

其中，V为白化矩阵，E为中心化数据的特征向量构成的正交矩阵，D为特征向量对应的特征值构成的对角矩阵，E^T为E转置矩阵；

步骤13；随机生成初始解混矩阵w₀，||w₀||²＝1；

步骤14：更新解混矩阵w，

其中，g(y)＝y×exp(-y²/2)，g′为g的导数；

步骤15：如果所述解混矩阵w收敛，则w_n+1解混矩阵，停止迭代，反之重新执行步骤14继续迭代；

步骤16：得到N个分离语音信号y＝[y₁，y₂，......y_n]，

3.如权利要求2所述的多人语音混合中目标说话人估计方法，其特征在于：判断所述解混矩阵w收敛的公式为|w_n+1-w_n|＜ε，其中，ε为收敛门限。

4.如权利要求1所述的多人语音混合中目标说话人估计方法，其特征在于：所述语音特征包括每次说话时长S_n(L)、说话次数S_n(N)、短时能量E_n和MFCC系数C_n中至少一种。

5.如权利要求4所述的多人语音混合中目标说话人估计方法，其特征在于：所述每次说话时长S_n(L)是指检测语音段的起始时间和结束时间中间的时间长度。

6.如权利要求4所述的多人语音混合中目标说话人估计方法，其特征在于：所述说话次数S_n(N)是指每条语音中出现的分段语音的次数。

7.如权利要求4所述的多人语音混合中目标说话人估计方法，其特征在于：所述短时能量E_n是指语音信号的第n个采样点的短时能量。

8.如权利要求4所述的多人语音混合中目标说话人估计方法，其特征在于：所述MFCC系数C_n是指每个人语音的梅尔频率倒谱系数特征点。

9.如权利要求4所述的多人语音混合中目标说话人估计方法，其特征在于：所述步骤3为使用下面公式对所述语音特征进行归一化处理，

其中，表示归一化后的S_n(F)特征，S_n(F)是第n个说话人的某一个特征，S_n(F_max)表示S_n(F)的最小值，S_n(F_min)表示S_n(F)的最大值。

10.一种多人语音混合中目标说话人估计系统，包括用于进行多人混合语音分离的语音分离模块，其特征在于，还包括以下模块：

多语音特征融合模块：提取多个语音特征，特征归一化之后，进行加权参数融合，得到语音特征序列；融合构成各个人的语音特征矢量x_n，其中，λ为对应的加权参数，为归一化的说话时长，为归一化的说话次数、为归一化的短时能量，为归一化的MFCC系数；

融合参数优化模块：用高斯混合模型对融合参数进行优化，通过期望最大化算法EM算法，估计出概率值最大的语音特征序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京联合大学，未经北京联合大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810610015.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于噪声的工业缝纫机降噪方法、装置及设备
下一篇：基于语音的交互方法及系统

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top