[发明专利]一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统在审
申请号: | 201510093489.6 | 申请日: | 2015-03-03 |
公开(公告)号: | CN104882141A | 公开(公告)日: | 2015-09-02 |
发明(设计)人: | 夏菽兰;王吉林 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/16;G05B19/418 |
代理公司: | 苏州广正知识产权代理有限公司 32234 | 代理人: | 刘述生 |
地址: | 224051 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 隐马尔可夫 模型 串口 语音 控制 投影 系统 | ||
技术领域
本发明涉及一种投影控制系统;特别涉及一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统及其实现方法。
背景技术
随着投影技术的不断提升,投影仪在实际应用中的范围越来越广,不断深入到人们的工作、学习和生活中。随着科学技术的不断发展,人们对自动化、智能化控制需求也越来越高,在会议、学校、工程中等各种涉及到投影应用的场合,能够实现一种自动化控制投影系统是必然的发展趋势。
投影机一般都会有串口,从而可以实现串口控制。通过RS232串口线连接投影机与一台电脑主机,通过主机端发送相应的控制码可以实现投影机的开、关、视频和VGA1、VGA2的切换等。这种串口控制在工程应用中非常方便,对设备要求很低。
语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。语音识别经过四十多年的发展,显示出了巨大的应用前景。另外随着语音识别技术的不断成熟,语音控制在智能化控制中不断得到应用和普及。将语音控制技术集成到原有的串口控制技术之上,可以实现基于串口的语音控制。
在一些大型会议或者大型展会中,需要投影仪演示一些会议内容、会议报告或展会中播放的图片视频等,而传统的一般这种投影仪都会与一台电脑主机相连,通过计算机控制显示的内容。在这些场合中,往往需要在后台对投影机实现控制,后台工作人员可以通过串口通信和语音交互实现远程控制。
发明内容
本发明要解决的技术问题是提供一种投影仪的控制方法,在基于RS232串口控制基础上加上语音控制方法方便用户灵活控制投影仪。用户发送语音控制命令控制投影机的一些操作,该投影装置会反馈对应的语音提示给使用者,使用户无需通过目视观察即可确认该投影装置当前的状态。
为了达到上述目的,本发明提供了一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统,其特征在于,在投影机端集成一套装置,该装置包含输入单元、存储单元、传输单元、处理单元及输出单元;输入单元用于接收串口发来的命令消息,该消息是对用户发出的语音命令经过处理后得到,用户发出的语音信号,通过麦克风录入;存储单元用以储存用户的语音控制命令,并且存储了一定的语音库,当有新的语音命令时,会更新语音库,在该单元中会先预设定几个控制命令用于查找匹配;传输单元用于RS232串口线上的数据传输;处理单元通过处理用户的语音命令进行语音数据库的更新和对用户语音命令与存储的控制命令进行匹配查找,按照对应的控制命令执行相应的操作;输出单元一方面用以向串口线输出投影机反馈的命令信号,发回给连接投影机的电脑主机,另一方面通过音频输出设备输出反馈的语音;
该投影控制系统的基本流程包括:
(1-1)获取语音信号并对语音数据进行处理,转换成语音命令;
(1-2)在主机端对语音命令进行数据转换,将得到的命令消息通过串口发送给投影仪;
(1-3)在投影仪端,根据预设的语音信号与控制指令的对应关系,查找并获取所述语音信号对应的控制指令;
(1-4)根据控制命令,投影仪执行相应的操作;
(1-5)投影机通过串口线将反馈信息发送给主机,并且再次经过数据转换得到命令文本,再经过语音合成得到反馈信息的语音;
在系统正式投入使用之前,需要预先训练投影仪端的控制装置,在存储单元中导入语音库和预先建立对投影仪的控制命令,从而建立录入的语音命令和控制指令间的对应关系。
进一步的,与该系统相配套的语音控制方法的工作流程如下:
(2-1)通过音频录入设备获取到用户的语音命令;
(2-2)通过基于时延神经网络和隐马尔可夫模型的语音识别方法将语音命令转换成对应的文本;
(2-3)对文本经过数据转换,向串口发送相应的消息;
(2-4)当接收到投影仪端发送回来的反馈消息,进行数据转换得到文本信息,经过语音合成得到反馈信息的语音,用户便得知当前投影仪的状态信息。
进一步的,所述的基于时延神经网络和隐马尔可夫模型的语音识别方法包括如下步骤:
(3-1)预处理与特征提取
首先,使用了基于能量和过零率的方法进行静音检测,并用谱减法去除噪声,而后采用f(z)=1-0.97z-1的滤波器对语音信号进行预加重,采用长度为50ms和窗移为20ms的汉明窗进行分帧,并进行15阶的线性预测(LPC)分析,然后从得到的LPC系数中求出13阶倒谱系数作为语音识别的特征向量;
(3-2)训练
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510093489.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:叶片锁锁芯
- 下一篇:一种建筑工程施工用报警式围挡