[发明专利]一种基于缓存语言模型的语音识别自适应方法和系统有效
申请号: | 202011332443.2 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112509560B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 黄俊杰 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/183;G10L15/26 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 311200 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 缓存 语言 模型 语音 识别 自适应 方法 系统 | ||
本发明公开了一种基于缓存语言模型的语音识别自适应方法和系统,属于语音识别领域。本发明通过接收用户输入的持续语音信号,基于语音活动检测技术VAD将持续语音信号切分为多个短语音,基于通用语言模型对短语音依次进行识别,并为每个短语音生成对应的识别结果,基于关键词搜索得到关联词表,通过缓存模型对关联词表进行处理,得到适应历史识别文本分布的局部变化的语言模型,基于修改后的语言模型对后续短语音继续识别。经过局部修改后,语言模型和历史识别内容具有更好的相似性,提升了持续长语音的识别的准确率。另外,用户可以在识别的过程中对错误识别的低频词进行主动修正,提升后续对低频词的识别准确率。
技术领域
本发明涉及语音识别领域,尤其涉及一种基于缓存语言模型的语音识别自适应方法和系统。
背景技术
语音识别在经历数十年发展后,已经具有了较为成熟的技术,在实际应用中Siri、Cortana等在理想条件下具有了较高的识别准确率。
语音识别系统的性能很大程度上取决于所使用的的语言模型(LM)与要处理的任务之间的相似性。在语言的统计属性随时间变化的情况下,例如在涉及自发性和多领域语音的应用场景中,这种相似性尤为重要。基于信息检索的主题识别(TI)是一种关键技术,通过对历史识别结果的语义分析得到正在讨论的主题,从而对语言模型进行调整,实现动态自适应。
但主题识别的问题在于,对于个别低频词,有可能因为其带有的明显领域特征造成语言模型的不必要改变。在语音信号处理方面,目前语音识别系统主要采用单句任务识别,即无论输入语音长短,语音识别系统都会根据语音活动检测(VAD)判别结果,将语音中的单句视为独立任务进行识别。这样做的好处在于可以获得较好的识别实时性,并在一定程度上减少系统开销。
对于具有较强的上下文联系或专业领域性的场景,例如学术会议、采访记录等,单句任务识别系统将忽略前后联系,对于识别不准确的词反复出错,且无法利用领域信息识别低频词。另一方面,对于配置了多个领域化语言模型的语音识别系统,通常需要在识别开始前对领域模型进行人工指定,或对多个领域输出结果进行困惑度选择,增加了不必要的步骤,导致识别系统不够智能化。
发明内容
为了解决现有的基于单句任务的语音识别系统无法自适应领域信息识别低频词,导致低频词的识别准确度较低或识别系统过于复杂的问题,本发明提出了一种基于缓存语言模型的语音识别自适应方法和系统。包括:接收用户输入的持续语音信号;基于语音活动检测(VAD)将所述持续语音信号切分为多个短语音;基于通用语言模型或预设领域化语音模型对所述短语音依次进行识别,并生成识别结果;基于关键词搜索得到识别结果的关联词;基于递归网络(RN)非参数方法的拓展缓存语言模型模型得到历史识别单词及关联词的新概率分布,得到新的单词统计概率。本发明利用了历史识别结果动态缓存修改语言模型概率,使得语音识别系统对具有连贯领域信息识别任务具有自适应效果,避免了领域化语言模型不必要的改变。
为了实现上述目的,本发明采用的一种基于缓存语言模型的语音识别自适应方法,包括以下步骤。
步骤1:针对一段连续的长语音,首先分割得到多条短语音,并按照时间顺序构成任务队列;
步骤2:取任务队列中的第一条短语音作为自动语音识别系统的输入,获得识别文本,并将该条短语音从任务队列中删除;所述的自动语音识别系统包括动态语言模型,将预设语言模型作为初始化的动态语言模型;
步骤3:建立缓存模型,根据每一条短语音的识别文本,实时判断是否需要进行概率修正,若否,则返回步骤2,直至任务队列为空,完成识别任务;若是,则根据预设关联词表进行关键词搜索,得到关键词组,并存储至缓存模型的缓存区,计算局部词汇概率分布,构建局部语言模型;
步骤4:将步骤3构建的局部语言模型与自动语音识别系统中的动态语言模型进行插值合并,得到更新后的动态语言模型,返回步骤2,直至任务队列为空,完成识别任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011332443.2/2.html,转载请声明来源钻瓜专利网。