[发明专利]检测语音关键词的方法和设备及检索方法和系统有效
申请号: | 200810099976.3 | 申请日: | 2008-05-29 |
公开(公告)号: | CN101593519A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 杨庆涛;缪炜;吴亚栋;李丰芹 | 申请(专利权)人: | 夏普株式会社 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 | 代理人: | 陈瑞丰 |
地址: | 日本国*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 语音 关键词 方法 设备 检索 系统 | ||
技术领域
本发明涉及语音关键词检测,具体涉及一种检测语音关键词的方法和设备以及相应的检索方法和系统,能够从音频文件中快速检测到语音关键词。
背景技术
近年来,越来越多的信息终端装置,例如PC(个人计算机)、PDA(个人数字助理)、移动电话和遥控器等具备了语音输入功能,从而允许使用者通过发出语音来输入命令或者输入关键词。也就是说,需要这样的信息终端装置能够从用户输入的未知语音串中识别出用户想要输入的关键词,或者从现有的语音文件中检测用户输入的关键词,例如在音频检索系统中的应用。因此,如何准确和快速地检测语音文件中的关键词是语音识别技术中一个重要的问题。
非专利文献1(A keyword spotting method based on speech feature space trace matching,Xuhui Wu,Yadong Wu,Acoustics,Speech,and Signal Processing,2002.Proceedings.(ICASSP′02),IEEE International Conference on Volume 4,13-17May 2002Page(s):IV-4193vol.4)披露了一种定位语音文件中的关键词的技术,它是一种基于语音特征空间轨迹匹配的识别技术。采用的变帧率技术,通过在特征矢量空间中计算矢量距离来获得具有音韵特征结构的语音特征矢量序列,并且要对矢量序列先重新刻度,以再计算线性移动匹配中各矢量间距离。
也就是,该技术采用了在特征矢量空间中计算矢量间距离计算方法,通过定义合适阈值来进行语音特征归并,获得具有音韵特征结构的语音特征矢量序列。但是,由于矢量计算的计算量较大,并且进行特征归并的阀值也比较难确定,而这个阀值的设定直接影响得到的具有音韵结构特征的特征矢量序列准确与否,这造成了计算精度不高,在匹配中必须 进行重新刻度才能进行线性匹配,增大了计算量。
发明内容
本发明的目的是提出一种检测语音关键词的方法和设备以及相应的检索方法和系统,能够快速从音频文件中检测到语音关键词。
在本发明的一个方面,提出了一种检测音频文件中的语音关键词的设备,包括:VQ码本库,存储了基于预定声学模型的VQ码本;状态特征库,存储了该音频文件的VQ状态序列矩阵,该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值;状态序列生成单元,基于VQ码本库中的VQ码本,将输入的关键词转换成相应的VQ状态序列;以及匹配单元,利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减,并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。
根据本发明的实施例,所述的状态特征库是基于所述VQ码本而事先创建的。
根据本发明的实施例,所述的状态序列生成单元,在输入的关键词是文本形式时,基于所述VQ码本将关键词的音节拆分成具有音韵特征的VQ状态序列。
根据本发明的实施例,所述的状态序列生成单元,在输入的关键词是语音形式时,基于所述VQ码本将对关键词进行解码所得到的最优状态序列转换成VQ状态序列。
根据本发明的实施例,所述的匹配单元针对VQ状态序列矩阵的每一帧(列),只保留在关键词的VQ状态序列中含有的状态,而舍弃关键词VQ状态序列中不包含的状态。
根据本发明的实施例,所述的匹配单元使用了从左到右的优先自转、允许跳转的匹配方法,在缩减的矩阵中从前往后搜索所有可能的关键词候选段。
根据本发明的实施例,所述的匹配单元基于候选段的VQ状态序列与关键词的VQ状态序列的长度关系和/或候选段实际经历过的VQ状态与该关键词VQ状态序列的比例关系来对候选段进行筛选。
根据本发明的实施例,所述的匹配单元针对每个候选段,计算其声学概率值,并根据事先设定的拒绝门限来对候选段进行筛选。
在本发明的另一方面,提出了一种检测音频文件中的语音关键词的方法,包括步骤:基于存储了基于预定声学模型的VQ码本的VQ码本库中的VQ码本,将输入的关键词转换成相应的VQ状态序列;取得该音频文件的VQ状态序列矩阵,该矩阵包括该音频文件的各个语音帧的VQ码本编号和相应的声学概率值;以及利用转换的VQ状态序列对状态特征库中的VQ状态序列矩阵进行缩减,并用该VQ状态序列在经缩减的矩阵中搜索该语音关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810099976.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于冶金容器的滑盖
- 下一篇:碳酰氯的中和处理方法