[发明专利]一种基于音视频的无监督的多说话人识别装置和方法在审
申请号: | 201811329163.9 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109410954A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 杨岳川 | 申请(专利权)人: | 杨岳川 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L15/04;G10L17/04;G06K9/00;G10L25/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 261400 山东省烟*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系矩阵 说话人识别 音视频 支持向量机分类器 高斯混合模型 获取模块 无监督 人脸 初始化模块 说话人模型 说话人验证 定位唇部 训练模块 用户反馈 相邻帧 训练集 迭代 归类 集合 视频 语音 分割 检测 记录 | ||
一种基于音视频的无监督说话人识别装置和方法。装置包括:初始化模块,分割整个音视频得到若干包含语音的段,将视频中属于同一个人的人脸进行归类,建立人集合,建立人与段关系矩阵;画面内说话人获取模块,从人脸中定位唇部区域,根据相邻帧判断是否发生唇动,在关系矩阵中进行说话人的记录;画面外说话人获取模块,根据迭代的关系矩阵判断是否新增说话人;说话人模型训练模块,根据关系矩阵收集每个说话人的正例和反例构成训练集,训练高斯混合模型和支持向量机分类器;说话人识别模块,使用高斯混合模型和支持向量机分类器对没有识别出唯一说话人的段进行处理;说话人验证模块,检测当所有段都具有唯一说话人,并且用户反馈没有错误之后结束。
技术领域
本发明涉及多说话人识别技术,尤其涉及基于音视频的多说话人识别技术。
背景技术
随着手机等音视频记录设备的广泛使用,越来越多的普通用户成为音视频的录制者,很多人在参加课堂、讲座、会议时进行音视频记录,甚至在街头采访、旅行见闻也常常用音视频来记录。面向这些音视频的内容识别和说话人识别的需求是非常庞大的。特别是对于包含多个说话人的音视频,需要将多个说话人的音视频分开。
普通用户录制的音视频,很多情况下并不像专业摄像那样规范,而是具有很大的随意性,很多情况下在录制前后也无法单独获取每个说话人的训练视频。针对这些场景下的多说话人识别,传统的监督多说话人识别技术难以应用。监督多说话人识别技术依赖于预先给定的各说话人单独的训练音视频,或者说训练音视频的各部分带有属于某一个说话人的标签,因此被称为监督学习。而无监督学习则不依赖于预先给定的训练数据,而是从原始数据自行发现类别,无监督学习常见的算法例如聚类算法。对于普通用户录制的海量音视频来说,很难要求视频中的说话人按照规定的材料和环境采集训练数据,直接给定待识别的一段音视频、从中学习出多个说话人的无监督识别技术是更值得研究的技术。值得注意的是,还有一种方式是通过用户手动标记每个说话人的视频帧作为训练数据,但对于普通用户而言对整段音视频的各个部分都标记上不同的说话人是非常繁琐的,而只标记一小部分则会造成训练样本的不足。因此需要研究一种不需要预先设置训练数据的无监督的说话人识别技术。
普通用户录制音视频的场景也更加多样,不局限于传统的课堂、讲座、会议,也可以是街头、户外等等。普通用户在记录音视频时往往只使用一台视频记录设备如手机,记录不同人在不同时刻的音频。这种记录的形式非常灵活,也不一定每时每刻都对着说话人进行记录,很多情况下会出现“画外音”,即声音的发出者并不在画面之中。在某些情况下,对于这些视频的自动分析也要求识别这些“画外音”的说话人。
目前综合利用视频和音频的说话人识别的研究比较少。而不需要预先设置训练集的无监督的相关研究则更少。此外,有一类研究是文本有关的说话人识别,例如根据台词来识别影视剧视频中的人物。但此类研究并不适合一般的讲座、报告会、街头采访等场合,因为用户很难获取到说话人使用的讲稿。并且由于说话内容的领域千差万别,利用文本的说话人识别的领域相关性太强。因而本发明针对文本无关的基于音视频的无监督的多说话人识别进行研究。
发明内容
本发明要解决的技术问题主要是在不预先获取训练样本的情况下利用视频画面信息来辅助进行音频的多说话人识别。
本发明提供了一种基于音视频的无监督说话人识别装置。装置包括:初始化模块,分割整个音视频得到若干包含语音的段,将视频中属于同一个人的人脸进行归类,建立人集合,建立人与段关系矩阵;画面内说话人获取模块,从人脸中定位唇部区域,根据相邻帧判断是否发生唇动,在关系矩阵中进行说话人的记录;画面外说话人获取模块,根据迭代的关系矩阵判断是否新增说话人;说话人模型训练模块,根据关系矩阵收集每个说话人的正例和反例构成训练集,训练高斯混合模型和支持向量机分类器;说话人识别模块,使用高斯混合模型和支持向量机分类器对没有识别出唯一说话人的段进行处理;说话人验证模块,检测当所有段都具有唯一说话人,并且用户反馈没有错误之后结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨岳川,未经杨岳川许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811329163.9/2.html,转载请声明来源钻瓜专利网。