[发明专利]优化上屏效果的语音识别方法、设备、终端与存储介质有效
申请号: | 202110132062.8 | 申请日: | 2021-01-30 |
公开(公告)号: | CN112908306B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 范红亮;李轶杰;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 效果 语音 识别 方法 设备 终端 存储 介质 | ||
本发明涉及优化上屏效果的语音识别方法、设备、终端与存储介质,该方法包括:确定用于进行语音识别的引擎;对所述引擎进行调整;其中,所述调整包括:优化所述引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据量;基于调整后的所述引擎进行语音识别。本发明实施例的方案,从语音识别引擎角度出发,从引擎参数、模型结构、词典颗粒度等角度,提出了优化方法,能够降低引擎延时,并且出词更加平滑流畅,特别在上屏应用场景中,能够极大改善用户体验。
技术领域
本发明涉及上屏效果优化的技术领域,具体涉及优化上屏效果的语音识 别方法、设备、终端与存储介质。
背景技术
在语音识别相关的上屏应用场景(如语音输入法、带屏类实时语音转写 等)中,有很多因素会影响最终的上屏效果,如:识别引擎本身的准确率、 实时率、识别引擎延时和网络延时等。其中,除去网络延时等外部因素,涉 及到识别引擎本身的指标主要有:识别准确率、引擎延时和流畅度等,此外 延时指标也会直接影响上屏效果的流畅度。
具体的,识别引擎各项性能都会直接影响最终的上屏效果;除了识别准 确率直接影响用户体验之外,上屏的流畅度体验也是另一个非常重要的评价 指标。
在目前的语音识别上屏场景中,经常出现虽然最终识别结果正确,但是 主观感觉上屏显示效果不够流畅,会有“卡顿”(响应慢)、内容“跳变”(显 示过程不平滑)等问题,严重影响用户的主观体验。
由此,目前需要有一种更好的方案来解决现有技术中的问题。
发明内容
本发明提供优化上屏效果的语音识别方法、设备、终端与存储介质,能 够解决现有技术中上屏显示效果不够流畅的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种优化上屏效果的语音识别方法,包括:
确定用于进行语音识别的引擎;
对所述引擎进行调整;其中,所述调整包括:优化所述引擎的结构延时 与时间片,以降低所述引擎的响应时间;和减小所述引擎中词典的颗粒度, 以降低上屏内容的变化率;所述时间片为每次给所述引擎的数据量;
基于调整后的所述引擎进行语音识别。
在一个具体的实施例中,优化所述引擎的结构延时,包括:
在满足预设的语音识别率时,将所述引擎的右拼帧参数降低到最小。
在一个具体的实施例中,所述右拼帧参数的范围为5-25。
在一个具体的实施例中,优化所述引擎的时间片,包括:
将所述引擎的时间片的大小设置为所述引擎的批处理大小。
在一个具体的实施例中,所述时间片的范围为20-60ms。
在一个具体的实施例中,减小所述引擎中词典的颗粒度,包括以下一个 或多个方式的任意组合:将多个有意义的短词组成的词条进行拆分、将整词 的前预设个字作为新词条加入所述引擎中词典。
在一个具体的实施例中,所述词典中的词条的长度不超过4个字。
本发明实施例还提出了一种优化上屏效果的语音识别设备,包括:
确定模块,用于确定用于进行语音识别的引擎;
调整模块,用于对所述引擎进行调整;其中,所述调整包括:优化所述 引擎的结构延时与时间片,以降低所述引擎的响应时间;和减小所述引擎中 词典的颗粒度,以降低上屏内容的变化率;所述时间片为每次给所述引擎的 数据量;
识别模块,用于基于调整后的所述引擎进行语音识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110132062.8/2.html,转载请声明来源钻瓜专利网。