[发明专利]一种云端语言能力评测系统及可穿戴录音终端在审
申请号: | 202011601296.4 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112750465A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 李明;张琳;林庆健 | 申请(专利权)人: | 昆山杜克大学 |
主分类号: | G10L25/60 | 分类号: | G10L25/60;G10L25/78;G10L25/87;G10L25/51;G10L15/34;G10L15/26;G10L15/06 |
代理公司: | 广州帮专高智知识产权代理事务所(特殊普通合伙) 44674 | 代理人: | 陆茵 |
地址: | 215300 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 云端 语言 能力 评测 系统 穿戴 录音 终端 | ||
1.一种云端语言能力评测系统,其特征在于,包括:
设置有麦克风阵列的可穿戴录音终端;用于通过所述麦克风阵列采集多通道音频语音信号,并上传至所述智能语音处理模块,生成音频向量文件;
智能语音处理模块;用于对音频向量文件进行前端信号优化处理,并利用其各个子模块相应的语音分析算法从音频向量文件中提取若干多维度识别数据;
语言能力评估模块;用于从所述智能语音处理模块抽取所述多维度识别数据,并对所述多维度识别数据进行分析及统计;
所述麦克风阵列采集所述多通道音频语音信号后,传输至所述智能语音处理模块生成音频向量文件,所述智能语音处理模块先对所述音频向量文件进行前端信号优化处理,再利用其各个子模块相应的语音分析算法从经过所述前端信号优化处理的音频向量文件中提取多维度识别数据,语言能力评估模块自动或者依据用户自定义规则从所述智能语音处理模块中抽取一个或者多个所述多维度识别数据,并对一个或者多个所述多维度识别数据进行分析及统计,并输出目标说话人语言能力的综合评测结果及等级分类。
2.根据权利要求1所述的云端语言能力评测系统,其特征在于:
所述智能语音处理模块包括前端数据处理模块以及智能识别算法模块;
所述前端数据处理模块,用于对所述音频向量文件进行前端信号优化处理;
所述智能识别算法模块,用于依据通过多种语音分析算法对所述音频向量文件进行计算及分析,并生成若干多维度识别数据。
3.根据权利要求2所述的云端语言能力评测系统,其特征在于:
所述前端数据处理模块包括端点检测单元;
所述端点检测单元用于从音频向量文件中的各段语音片段中检测出包含人声的语音片段且去除静音片段;所述端点检测单元采基于卷积网络-长短时记忆网络的端到端框架模型对于音频向量文件进行语音端点检测,在端到端框架模型中位于前端的卷积网络ResNet用于从音频向量文件的各段语音片段中抽取与语音活动检测任务相关的特征序列,并确定各段语音片段的端点,长短时记忆网络LSTM用于进一步捕获各段语音片段的特征序列中的时间依赖性;
所述端点检测单元将二分类交叉熵作为损失函数对端到端框架模型进行训练,通过训练检测出包含人声的语音段的起始时间和结束时间。
4.根据权利要求2至3所述的云端语言能力评测系统,其特征在于:
所述智能识别算法模块包括声纹识别单元;
所述声纹识别单元用于识别不同身份说话人的语音片段声纹特性并标记;
所述声纹识别单元通过利用ResNet算法模型提取音频向量文件中的各语音片段的说话人嵌入信息且对所述说话人嵌入信息进行声纹特征识别,再依据不同被测试者的声纹特征匹配相应的身份标记。
5.根据权利要求2至3所述的云端语言能力评测系统,其特征在于
所述智能识别算法模块包括说话人日志单元;
所述说话人日志单元用于对所有目标说话人及相关说话人形成的各段音频向量文件及各段音频向量文件对应的起止发言时间按说话人身份属性归档。
6.根据权利要求5所述的云端语言能力评测系统,其特征在于:
所述说话人日志单元通过模块化说话人日志模型对各段音频向量文件及对应的起止发言时间按说话人身份属性归档;
在所述模块化说话人日志模型中,所述说话人日志单元中的音频切割器将音频向量文件中的各段语音片段中的长语音片段切割成多段短语音片段,所述说话人日志单元中的语音识别器将多段短语音片段中记载的语音信息转化为文本信息,所述说话人日志单元利用第一类提取工具将多段文本信息转化文本矩阵,所述说话人日志单元的声纹识别器提取多段短语音片段的声纹特征,所述声纹识别器将利用第二类提取工具将多段声纹特征转化为声纹矩阵;
将所述文本矩阵及所述声纹矩阵作为相似度评估算法的输入,所述说话人日志单元利用所述相似度评估算法对所述文本矩阵及所述声纹矩阵涉及的多段短语音片段的声纹相似度进行计算得到若干相识度矩阵,再若干相识度矩阵输入至改进型谱聚类算法进行计算并将声纹特征相似度的短语音片段归为同一类,得到聚类数及各段短语音片段实现按说话人身份属性归档结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆山杜克大学,未经昆山杜克大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011601296.4/1.html,转载请声明来源钻瓜专利网。