[发明专利]语音识别文本的展示方法、装置、设备和存储介质有效
申请号: | 202110132060.9 | 申请日: | 2021-01-31 |
公开(公告)号: | CN112908337B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 王利平;陈吉胜 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 文本 展示 方法 装置 设备 存储 介质 | ||
本发明涉及一种语音识别文本的展示方法、装置、设备和存储介质,方法包括:利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本;根据当前识别文本的类型,确定可展示文本;按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示,实现了持续、不间断地展示语音信息的识别结果,避免识别文本在展示过程中出现卡顿现象,提高了人机交互的质量。
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音识别文本的展示方法、装置、设备和存储介质。
背景技术
在人机交互过程中,通常在进行语音识别的同时往往通过显示设备将语音识别出的识别文本展示给用户,以提高人机交互效率。
现有技术,显示设备在显示识别文本时,通常会待识别的语音信息全部识别后,再将识别文本的全部文字展示。由于网络、语音信息长短等原因,可能造成较长的时间才能对语音信息进行识别和展示对应的识别文本,使得识别文本在展示过程中出现卡顿现象,降低了人机交互的质量。
发明内容
本发明提供一种语音识别文本的展示方法、装置、设备和存储介质,能够解决现有技术中因识别文本在展示过程中出现卡顿现象,导致人机交互质量较低的技术问题。
本发明解决上述技术问题的技术方案如下:
一种语音识别文本的展示方法,包括:
利用预先构建的语音识别模型对获取的语音信息的当前词组进行识别,得到所述当前词组对应的当前识别文本;所述当前词组根据所述语音识别模型对应的词组颗粒度对所述语音信息进行分词得到;
根据当前识别文本的类型,确定可展示文本;
按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次通过显示设备进行展示。
进一步地,上述所述的语音识别文本的展示方法中,根据当前识别文本的类型,确定可展示文本,包括:
若所述当前识别文本的类型为可变类文本,将已确定的不可变文本和下一段已解码文本作为所述可展示文本;
若所述当前识别文本的类型为不可变类文本,将已确定的不可变文本、所述当前识别文本累加和下一段已解码文本作为所述可展示文本。
进一步地,上述所述的语音识别文本的展示方法中,根据当前识别文本的类型,确定可展示文本之后,还包括:
将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字;
对应地,按照预设的时间间隔和预设的字符长度,将所述可展示文本中的文字依次展示于显示屏,包括:
按照预设的时间间隔和预设的字符长度,将所述目标风格的文字依次展示于显示屏。
进一步地,上述所述的语音识别文本的展示方法中,将可展示文本中的文字输入预先训练的多风格字幕生成模型进行处理,得到目标风格的文字,包括:
利用所述多风格字幕生成模型的编码器对所述可展示文本中的文字进行编码得到文字向量,并将所述文字向量与预设的主题分词特征向量进行重组,得到重组向量;
将所述重组向量输入所述多风格字幕生成模型对应的对抗生成网络,得到所述目标风格的文字。
进一步地,上述所述的语音识别文本的展示方法中,所述主题分词特征向量按照如下方式设定:
从预设主题分词中提取所述主题分词特征向量,并设定所述主题分词特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110132060.9/2.html,转载请声明来源钻瓜专利网。