[发明专利]一种语音识别方法及装置在审
申请号: | 201710703943.4 | 申请日: | 2017-08-16 |
公开(公告)号: | CN107403620A | 公开(公告)日: | 2017-11-28 |
发明(设计)人: | 王强 | 申请(专利权)人: | 广东海翔教育科技有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/187;G10L15/19 |
代理公司: | 佛山市智汇聚晨专利代理有限公司44409 | 代理人: | 张艳梅 |
地址: | 528000 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 | ||
技术领域
本发明属于语音识别技术领域,特别是涉及一种语音识别方法及装置。
背景技术
本发明涉及语音识别技术,更具体地讲,涉及一种通过将基于统计语言模型的识别与基于语法规则的识别结合从而实现声音识别和语义理解一体化的语音识别方法和语音识别系统。
随着人工智能产品在生活中的渗透率越来越高,其中技术的发展也成为了众人关心的重点所在。作为人机自然交互的基本途径之一,近期以来,语音识别的发展不可谓不快速。
语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。
根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。现如今,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。
随着信息技术的发展,语音识别技术已经走入了人们的生活。在现有的常用语音识别技术中,通常用到的识别方法是基于统计语言模型(Ngram)的识别,或者是基于语法规则(grammer)的识别。基于统计语言模型的识别是把所有语音层信息组合成一个Ngram语言模型,识别结果是在Ngram模型所组成的解码空间上进行的。基于语法规则的识别是把语言层信息组织成固 定的语法(grammer),识别的解码过程是在grammer上进行的。一般来说,基于Ngram的识别具有较高的灵活性,但是识别率偏低。基于grammer的识别具有较高的识别准确度,但是只能识别语法规则规定的语法样式的识别,不具备可推广性。
发明内容
本发明的目的在于提供一种语音识别方法及装置,以通过将基于统计语言模型的识别与基于语法规则的识别结合从而实现声音识别和语义理解一体化,从而提高语音识别的准确度。
为了达到上述目的,本发明提供了语音识别方法及装置,所述语音识别方法包括步骤:
接收输入的语音信号,并根据所述语音信号提取语音帧特征;
根据所述语音帧特征,对所述输入的语音信号进行语音解码,并获得语音解码结果;
根据所述语音解码结果,通过回溯选择的解码路径上的各个节点确定语义解析结果。
优选的,所述语音解码结果获得过程至少包括:将所述输入的语音信号遍历解码空间中的每一条解码路径;根据所遍历的结果选择语言层得分与声学层得分之和最大的目标解码路径,并根据所述目标解码路径上的各个节点的三音子声学模型确定语音解码结果;
优选的,每条解码路径的语言层得分为该解码路径上的各个节点之间的类语言模型概率P-Class与该解码路径上的统计语言模型节点的统计语言模型概率P-Ngram之和。
优选的,每条解码路径的声学层得分为该解码路径上的各个节点的三音子声学模型得分之和。
优选的,对于类语言模型节点,与该节点相应的词类词被展开为对应的三音子声学模型。
此外,本发明还提供一种语音识别装置,所述装置包括:
接收模块,用于接收输入的语音信号,并根据所述语音信号提取语音帧特征;
解码模块,用于根据所述语音帧特征,对所述输入的语音信号进行语音解码,并获得语音解码结果,其中,所述语音解码结果获得过程至少包括:将所述输入的语音信号遍历解码空间中的每一条解码路径;根据所遍历的结果选择语言层得分与声学层得分之和最大的目标解码路径,并根据所述目标解码路径上的各个节点的三音子声学模型确定语音解码结果;
解析模块,用于根据所述语音解码结果,通过回溯选择的解码路径上的各个节点确定语义解析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东海翔教育科技有限公司,未经广东海翔教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710703943.4/2.html,转载请声明来源钻瓜专利网。