[发明专利]一种会议音频中的精彩说话人发现方法有效
申请号: | 201310061167.4 | 申请日: | 2013-02-27 |
公开(公告)号: | CN103137137A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 李艳雄;吴伟;贺前华;李广隆 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/78;H04M3/56 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种会议音频中的精彩说话人发现方法,步骤如下:读入会议音频;检测上述音频中的掌声音频段,将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到精彩语音段在会议音频中出现的位置;对上述精彩语音段进行说话人聚类,得到精彩说话人个数及其精彩语音段。本发明的有益效果是:基于掌声检测和说话人聚类,快速有效地估计出会议音频中的精彩说话人个数、精彩语音段及其在会议音频中出现的位置,为会议音频的快速浏览、摘要提取、说话人检索等奠定基础。 | ||
搜索关键词: | 一种 会议 音频 中的 精彩 说话 发现 方法 | ||
【主权项】:
一种会议音频中的精彩说话人发现方法,其特征在于,包括如下步骤:S1)读入会议音频:读入记录有多说话人语音的会议音频文件;S2)精彩语音提取:通过基于门限判决的静音检测从上述读入的会议音频中找出所有静音段和音频段,再从上述音频段中检测出掌声音频段,最后将各个掌声音频段前面5秒语音段提取出来作为精彩语音段,同时得到这些精彩语音段在会议音频中出现的位置;S3)说话人聚类:从上述精彩语音段中提取梅尔频率倒谱系数及其一阶差分的音频特征,再采用谱聚类算法对各个精彩语音段的音频特征进行说话人聚类,得到精彩说话人个数及其精彩语音段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310061167.4/,转载请声明来源钻瓜专利网。
- 上一篇:便捷式锂离子电池组保护板排线剪裁治具
- 下一篇:组合式开瓶器