[发明专利]一种基于场景的实时语音识别系统和方法有效
申请号: | 201410407362.2 | 申请日: | 2014-08-19 |
公开(公告)号: | CN105448292B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 雷欣;沈李斌 | 申请(专利权)人: | 北京羽扇智信息科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/28 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 冯建基 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 实时 语音 识别 系统 方法 | ||
本发明提供了一种实时语音识别系统和方法。该实时语音识别方法包括:采集当前用户的当前语音和当前场景信息;构建当前用户对应的当前场景语言模型;根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型;调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。本发明实施例通过结合各类场景信息以线下和线上相结合的方式构建语言模型,可以有效提升识别语音的准确率。
技术领域
本发明涉及语音识别技术,尤其涉及一种基于场景的实时语音识别系统和方法。
背景技术
现有的语音识别中,通常基于各领域语料组建的通用语言模型,结合相应的声学模型来识别语音对应的文本。其中的通用语言模型中的语料一般比较庞杂、更新速度较慢,没有针对性,导致语音识别结果往往准确性不高。特别对于同音或近似的语音,现有的语音识别技术并不能较好地提供准确的识别结果,例如,采集到用户的语音为“xinxinjie”,现有的语音识别技术并不能较好地判断该语音对应的文本是“新星街”还是“欣欣街”还是其他相似文本。
发明内容
本发明解决的技术问题之一是提升语音识别的准确率。
根据本发明的一个方面的一个实施例,提供了一种基于场景的实时语音识别系统,包括:
语音采集装置,被配置为采集当前用户的当前语音;
静态语言模型构建装置,被配置为基于采集的历史场景信息,构建与不同场景类型相对应的静态语言模型;
场景语言模型构建装置,被配置为实时采集当前用户的当前场景信息,构建当前用户对应的当前场景语言模型;
语音识别装置,被配置为根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型,调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
现有技术的实时语音识别系统只用通用语言模型识别,通用语言模型不针对具体的场景,而类型的场景中很多对话上下文会重复出现,因此,利用基于具体的场景的模型识别可以提高实时语音识别的准确度和效率。由于本发明的实施例通过统计和分析大量的历史场景信息,构建与不同场景类型相对应的静态语言模型,也即为不同的场景类型关联不同的静态语言模型,这种针对场景的模型识别有利于提升语音识别的准确性;另外,本实施例通过在线实时构建对应的当前场景语言模型,这种实时构建的语言模型进一步结合了当前用户的个性化信息,提升了语音识别的准确性。
根据本发明的一个实施例,所述语音识别装置包括:
并行计算单元,被配置为并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
识别单元,被配置为基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
由于本实施例并行计算各语言模型下的概率分数,而不是顺序计算,可以有效保证语音识别的实时性。
根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的,静态语言模型构建装置根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景分类至特定场景的类型中,每个特定场景的类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京羽扇智信息科技有限公司,未经北京羽扇智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410407362.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:填充变换编码音频信号中的非编码子向量
- 下一篇:一种新型吉他护板