[发明专利]一种录音文件自动校时方法在审

申请号：	201611218473.4	申请日：	2016-12-26
公开（公告）号：	CN106601241A	公开（公告）日：	2017-04-26
发明（设计）人：	蒋伟;王庆生;高瑞强	申请（专利权）人：	河南思维信息技术有限公司
主分类号：	G10L15/14	分类号：	G10L15/14;G10L21/0208;G06F17/30
代理公司：	郑州中原专利事务所有限公司41109	代理人：	张春,李想
地址：	450001 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种录音文件自动时方
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种校时方法，尤其涉及一种录音文件的校时方法。

背景技术

由于录音文件是机车运行时现场录制的音频信号，其中存在鸣笛、乘务员回话、机车机械振动等非线性复杂噪声信号，大大增加了语音识别的难度。采用传统的梅尔倒谱频率（MFCC）提取信号频率特征和隐式马尔科夫（HMM）算法进行识别难以准确识别LKJ语音报警信息。录音笔由于其内在晶振的问题，录音文件的时间与LKJ的基准时间轴之间往往存在偏差，无法进行音视频联动分析。

发明内容

本发明要解决的技术问题在于提供一种对机车上的录音笔的文件进行自动校时的方法，以解决现有技术存在的问题。

为解决上述技术问题，本发明采用以下技术方案：

一种录音文件自动校时方法，包括以下步骤：

对LKJ报警数据，通过标准音进行朗读，将朗读的标准音进行训练生成报警模型数据库；

对获取的机车中的录音笔的录音文件，分别进行单通道的音频噪声去除和双通道的音频噪声去除；

对去除噪声的录音文件，提取其中的所有语音片段和语音片段对应的时间；

将相邻语音片段之间的间隔时间在设定间隔阈值范围内、且语音片段时长在设定时长阈值范围内的语音片段提取出来，作为有效语音片段；

将有效语音片段与模型数据库中的数据进行匹配，获取有效语音片段中的报警信息，同时获取报警信息的报警类别；

将获取的报警信息，与LKJ的该报警信息所属的时间进行对比，获取录音文件的延迟，根据该延迟，对录音文件进行校时。

所述对去除噪声的录音文件，提取其中的所有语音片段时，通过MFCC的方式提取其中的信号频率特征。

所述训练模型建立过程为：对标准音朗读的报警语音信号，使用MFCC方法提取信号的频率特征，根据提取出的频率特征，通过马尔科夫算法建立训练模型。

所述对录音文件进行校时的方法为：

设置以LKJ标准时间为X轴坐标和Y轴坐标的平面坐标系，在获取的报警信息中选择至少两个报警信息，且在每个报警信息中获取至少一个时间点，并获取该时间点在录音笔中的时间和在LKJ标准时间中的时间，在上述平面坐标系中计算多个时间点的时间斜率，根据该斜率对该录音笔记录的录音文件进行简单计算校时。

所述设定间隔阈值范围为LKJ对相同的报警信息播报两遍时中间间隔的最短时间和最长时间之间的范围。

所述设定时长阈值为LKJ播报的报警信息中最长报警信息的时长和最短报警信息的时长之间的范围。

本发明的有益效果：采用时域与频域相结合的方法可以准确的识别录音笔中记录的LKJ语音的报警类别，获取报警时间，进而与LKJ视频信息中的报警信息进行比对，对录音文件进行时间调整，达到音视频联动分析的目的。

附图说明

图1为本发明的训练模型建立流程图。

图2为本发明的语音识别流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明提供一种对LKJ上记录机车运行中的所有语音信息的录音文件进行自动校时的方法。该方法通过对录音文件记录的LKJ的报警信息进行识别与时间对照，对录音文件进行校时，以实现音视频的联动分析。

由于录音文件会记录汽车鸣笛、司机对话、汽车机械振动等信息，而LKJ中通常不记录这些信息，且这些信息噪声较大，信息识别具有复杂性，无法根据这些信息进行时间提取，然后根据LKJ的标准时间轴进行录音文件的校时。

而LKJ会对各种报警信息进行语音播报，每次录音文件均会对这些报警信息进行记录，同时，录音文件中记录的报警信息的播报具有独特性，根据这些语音对录音进行校时，准确性高，复杂度低。

本发明的方法首先需要对LKJ播报的报警信息进行数据库训练。即在无噪音条件下，对LKJ所有涉及的报警信息通过机器标准音进行多次朗读，通过梅尔倒谱频率（MFCC）提取这些标准音中的特征，然后通过隐式马尔科夫模型（HMM）将朗读的标准音训练成报警模型数据库。

由于录音文件具有单信道的和双信道的不同录音文件，因此，针对不同的录音文件使用不同的去燥方法进行噪音去除与语音增强。其中，单信道的语音文件通过最优改进对数谱幅度估计（OMLSA）的现有算法进行去燥与语音增强，双信道文件采用基于人耳掩蔽效应的谱减算法进行去燥与语音增强。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于河南思维信息技术有限公司，未经河南思维信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611218473.4/2.html，转载请声明来源钻瓜专利网。

上一篇：归一化声学模型的输入数据的设备和方法和语音识别设备
下一篇：操作事件的执行方法及装置、终端

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种录音文件自动校时方法在审

专利文献下载