[发明专利]一种基于音视频的无监督的多说话人识别装置和方法在审

申请号：	201811329163.9	申请日：	2018-11-09
公开（公告）号：	CN109410954A	公开（公告）日：	2019-03-01
发明（设计）人：	杨岳川	申请（专利权）人：	杨岳川
主分类号：	G10L17/00	分类号：	G10L17/00;G10L15/04;G10L17/04;G06K9/00;G10L25/24
代理公司：	暂无信息	代理人：	暂无信息
地址：	261400 山东省烟***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于音视频的无监督说话人识别装置和方法。装置包括：初始化模块，分割整个音视频得到若干包含语音的段，将视频中属于同一个人的人脸进行归类，建立人集合，建立人与段关系矩阵；画面内说话人获取模块，从人脸中定位唇部区域，根据相邻帧判断是否发生唇动，在关系矩阵中进行说话人的记录；画面外说话人获取模块，根据迭代的关系矩阵判断是否新增说话人；说话人模型训练模块，根据关系矩阵收集每个说话人的正例和反例构成训练集，训练高斯混合模型和支持向量机分类器；说话人识别模块，使用高斯混合模型和支持向量机分类器对没有识别出唯一说话人的段进行处理；说话人验证模块，检测当所有段都具有唯一说话人，并且用户反馈没有错误之后结束。
搜索关键词：	关系矩阵说话人识别音视频支持向量机分类器高斯混合模型获取模块无监督人脸初始化模块说话人模型说话人验证定位唇部训练模块用户反馈相邻帧训练集迭代归类集合视频语音分割检测记录
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于音视频的无监督的多说话人识别装置，包括：初始化模块，按照音频中的有无语音和语句停顿分割整个音视频，得到若干段，每个段包含若干视频帧和一段音频；计算每个段的音频的MFCC特征，利用期望最大化算法训练表示音频总体分布的UBM模型；从所有视频帧中检测人脸，将属于同一个人的人脸进行归类，建立人集合；建立人与段的关系矩阵，每个矩阵元素是一个表示某人是否在某段中说话的关系值；关系值的初始值为0，表示不确定，关系值最小为‑1，表示该人确定没有说话，关系值最大为1，表示该人确定说话了；如果某段只与一个说话人关系值为1，则认为该段属于该说话人，该段可以作为该说话人的训练集中的正例；画面内说话人获取模块，从每个段的每个视频帧识别出的人脸中定位唇部区域，根据相邻视频帧唇部区域的面积变化识别是否发生唇动；检测到唇动的人标记为说话人，检测到没有唇动的人标记为未说话人；对关系矩阵中说话人与该段的关系值赋值为1，对关系矩阵中未说话人与该段的关系值赋值为‑1；对于没有出现在该段画面中的人，以及出现在画面中但无法判断唇动的人，与该段的关系值仍然为0；画面外说话人获取模块，如果在迭代运行时跳转到此，则获取前次迭代的学习结果，学习结果包括更新之后的关系矩阵；根据某段与所有说话人的关系值都小于预先设置的阈值，即表明该段不属于任何现有的说话人，则新增一个说话人，关系矩阵增加一列该说话人与所有段的关系值，该说话人与该段的初始值为1，与其他段的关系值为0；说话人模型训练模块，对于每一个说话人，收集只与该说话人关系值为1的段，将这些段的音频放入该说话人的训练集作为正例，搜索与该说话人关系值为‑1的段，将这些段的音频放入该说话人的训练集作为反例；根据UBM模型和每个说话人的训练集来计算每个说话人的GMM模型；根据每个说话人的训练集的正例和反例，为该说话人训练一个SVM分类器；说话人识别模块，对于每一个段，计算该段在所有说话人的GMM模型中的概率，计算该段在所有说话人的SVM分类器中的分类结果，根据GMM模型的概率和SVM分类器的分类结果来修改关系矩阵中的关系值；具体地，对于每一个段，如果关系矩阵中该段仅与一个说话人的关系值为1，则认为该段属于该说话人，不必调整关系值；如果关系矩阵中该段与多个说话人的关系值为1，则从上述多个说话人中选择SVM分类结果为正的说话人，从这些说话人中选择GMM模型概率最大者作为该段最可能的说话人，其关系值保留1，其余说话人与该段的关系值设置为相应的GMM模型的概率；如果关系矩阵中该段与任何一个说话人的关系值都不为1，且存在关系值不为‑1的多个说话人，计算该段多个说话人的GMM模型中的概率，将关系矩阵中相应说话人与该段的关系值设置为相应的概率；选出超过了预定义的阈值的最大的概率值对应的说话人，如果该说话人的SVM分类器中该段的分类结果为正，则该说话人被标记为该段的说话人；说话人验证模块，检测是否所有的段都标记了说话人；向用户展示每一段的音视频和标记的说话人，由用户进行说话人识别错误的反馈；如果用户标记某段属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为1，如果用户标记某段不属于某说话人，则将关系矩阵中该说话人和该段的关系值标记为‑1；如果所有的段都标记了说话人，并且用户没有反馈错误，则结束；否则迭代跳转到画面外说话人获取模块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杨岳川，未经杨岳川许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811329163.9/，转载请声明来源钻瓜专利网。

上一篇：一种多媒体竖式播放系统
下一篇：一种语音数据的保密方法、系统、装置及存储介质

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于音视频的无监督的多说话人识别装置和方法在审

专利文献下载