[发明专利]台词同步字幕的制作方法有效
申请号: | 201510046064.X | 申请日: | 2015-01-29 |
公开(公告)号: | CN104599693B | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 杜南山;江潮 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G11B27/10 | 分类号: | G11B27/10 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 刘杰 |
地址: | 430074 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕文件 字幕 同步字幕 制作 自然语言处理技术 自动语音识别 准确度 人力资源 视频字幕 台词字幕 音频信息 自动确定 截取 词句 | ||
本发明涉及自然语言处理技术领域,公开了一种台词同步字幕的制作方法,包括步骤:I、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;Ⅲ、用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。本发明能自动确定绝大部分台词字幕段的开始和结束时间,减少了人力资源代价,台词字母的准确度高,极大提高了视频字幕制作的效率。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种台词同步字幕的制作方法。
背景技术
台词同步字幕的制作过程中,主要存在两种情况:一是只有音视频文件,没有既定的台词剧本,需要通过人工听记音视频中的人物对话或背景台词得到台词剧本;二是有音视频文件和台词剧本。在这两种情况下,都需要在制作同步字幕。制作同步字幕的关键环节是为台词剧本中的每句台词字幕播放确定准确的开始和结束时间。目前,确定字幕播放的开始和结束时间需要通过人工逐一标记的方式,处理效率低,特别是浪费时间和人力资源。因此,希望能够设计一种自动的方法和环境,产生比较准确的字幕文件,以尽可能的减少人工干预和审校的工作量。
发明内容
本发明所要解决的技术问题是提供一种台词同步字幕的制作方法,快速地生成台词同步字幕文件,克服现有技术的效率低缺陷。
为解决上述技术问题,本发明提供一种台词同步字幕的制作方法,包括如下步骤:
Ⅰ、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段的开始和结束时间即为对应台词句音频的起始和结束时间;
Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;
Ⅲ、根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件。
更进一步的,对中间字幕文件中不准确或没有的对应关系的台词,进行标记。以便后续有针对性的进行人工处理和审校,得到最终字幕文件。
更优化的方案是,在所述步骤ⅰ之前,包括以下步骤:
将台词剧本中的词进行规范化表示,规则包括如下:
对数字用发音词替换原词;
对复数词增加原词作为候选;
具有形态的词增加原词作为候选;
具有连接关系的词增加各种合并或分离词作为候选;
得到规范化台词剧本。
用规范化台词剧本替代步骤ⅰ中的台词剧本与所述初始字幕文件进行对照。
对于大多数音视频来说,语音识别的结果错误率相对而言比较高,因此很难有相同的句子出现。句子之间的对应关系,主要根据两个句子中包含的相同词和连续相同词来确定。所述将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;包括以下步骤:
ⅰ、逐句读取台词剧本中的台词句,在所述初始字幕文件中查找与该台词句包含词汇相同的相同词,每个所述相同词标记有字幕段的序号;建立每个台词句与所述相同词及其字幕段序号的映射表;
ⅱ、根据连续相同词的数量大小进行第一次排序;得到具有先后顺序的相同词与台词句的对应关系表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510046064.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有嵌入式ROM的SRAM
- 下一篇:电话线质量语音的基音周期提取方法