[发明专利]字幕生成方法、装置、计算机设备以及存储介质在审

申请号：	202110951249.0	申请日：	2021-08-18
公开（公告）号：	CN113657381A	公开（公告）日：	2021-11-16
发明（设计）人：	郭晋;段恒昌;郑伟强	申请（专利权）人：	北京乐学帮网络技术有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06F40/194;G10L15/26
代理公司：	北京中知恒瑞知识产权代理事务所(普通合伙) 11889	代理人：	谢玲
地址：	100094 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字幕生成方法装置计算机设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种字幕生成方法、装置、计算机设备以及存储介质，方法包括：获取待生成字幕的目标音频、以及目标音频对应的标准文本；基于目标音频，生成对应的参考字幕文件，其中，参考字幕文件包括字幕文本以及字幕文本的显示时间；确定字幕文本与标准文本是否存在差异，若存在，则确定出差异信息，基于差异信息调整字幕文本，得到目标字幕文本；基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。这样可以及时地确定字幕文本中存在的问题，并能够进一步根据字幕文本相对于标准文本的差异信息来调整字幕文本，从而获得正确的字幕文本，大大提高了字幕文件的准确率。

技术领域

本公开涉及音频识别的技术领域，具体而言，涉及一种字幕生成方法、装置、计算机设备以及存储介质。

背景技术

为了直观地展示音视频所表示的内容，通常会为音视频配置对应的字幕。现有技术提供了基于语音识别技术来生成音视频对应的字幕的方案，然而，由于识别准确度的限制，基于语音识别所生成的字幕可能存在少字、多字和错别字等错误。因此，如何及时地发现和纠正基于语音识别所生成的字幕中的错误内容，成为亟需解决的问题。

发明内容

本公开实施例至少提供了一种字幕生成方法、装置、计算机设备以及存储介质。

第一方面，本公开实施例提供了一种字幕生成方法，所述方法包括：

获取待生成字幕的目标音频、以及所述目标音频对应的标准文本；

基于所述目标音频，生成对应的参考字幕文件，其中，所述参考字幕文件包括字幕文本以及所述字幕文本的显示时间；

确定所述字幕文本与所述标准文本是否存在差异，若存在，则确定出差异信息，基于所述差异信息调整所述字幕文本，得到目标字幕文本；

基于字幕文本的显示时间确定出目标字幕文本的目标显示时间，得到包含所述目标字幕文本和所述目标显示时间的目标字幕文件。

在一种可能的实施方式中，所述基于所述目标音频，生成对应的参考字幕文件，包括：