[发明专利]台词同步字幕的制作方法有效
申请号: | 201510046064.X | 申请日: | 2015-01-29 |
公开(公告)号: | CN104599693B | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 杜南山;江潮 | 申请(专利权)人: | 语联网(武汉)信息技术有限公司 |
主分类号: | G11B27/10 | 分类号: | G11B27/10 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 刘杰 |
地址: | 430074 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕文件 字幕 同步字幕 制作 自然语言处理技术 自动语音识别 准确度 人力资源 视频字幕 台词字幕 音频信息 自动确定 截取 词句 | ||
1.一种台词同步字幕的制作方法,其特征在于,包括如下步骤:
Ⅰ、截取台词的音频信息,通过自动语音识别产生初始字幕文件,所述初始字幕文件包括若干字幕段,以及字幕段的开始和结束时间;所述字幕段对应一句台词音频,所述字幕段的开始和结束时间即为对应台词句音频的起始和结束时间;
Ⅱ、将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系;
Ⅲ、根据台词剧本中的台词句与初始字幕文件中字幕段的对应关系,用台词剧本中的台词句生成新的字幕段,并在所述新字幕段上添加该字幕段的开始和结束时间,生成中间字幕文件;
所述将台词剧本与所述初始字幕文件进行对照,建立台词剧本中每句台词与初始字幕文件中字幕段的对应关系,包括以下步骤:
ⅰ、逐句读取台词剧本中的台词句,在所述初始字幕文件中查找与该台词句包含词汇相同的相同词,每个所述相同词标记有字幕段的序号;建立每个台词句与所述相同词及其字幕段序号的映射表;
ⅱ、根据连续相同词的数量大小进行第一次排序,得到具有先后顺序的相同词与台词句的对应关系表;
ⅲ、设置所述相同词与台词句的初始的对应关系集合Q为空,即:从对应关系表的第一个对应关系开始,取第一个对应关系放入对应关系集合Q中,然后,循环进行下列操作:
①顺序取一个对应关系,判断该对应关系是否与对应关系集合Q中的已有的确认对应关系冲突,判断方法为:
对应关系(a)-b与已有的确认对应关系冲突,是指(a)、b满足如下条件:
或者,
其中(a)表示台词剧本的台词句序号,b表示初始字幕文件的字幕段序号;
②如果不存在冲突,则确认该对应关系,将该对应关系加入对应关系集合Q中;并在所述对应关系表中删除包含该台词句序号的其它对应关系;
③如果存在冲突,则直接删除该对应关系。
2.根据权利要求1所述的台词同步字幕的制作方法,其特征在于,在所述步骤ⅰ之前,包括以下步骤:
将台词剧本中的词汇进行规范化表示,规则包括如下:
对数字用发音词替换原词;
对复数词增加原词作为候选;
具有形态的词增加原词作为候选;
具有连接关系的词增加各种合并或分离词作为候选;
得到规范化台词剧本;
用规范化台词剧本替代步骤ⅰ中的台词剧本。
3.根据权利要求1所述的台词同步字幕的制作方法,其特征在于,在步骤ⅱ中,如果连续相同部分单词数量相同,则按长度进行二次排序。
4.根据权利要求1所述的台词同步字幕的制作方法,其特征在于,所述生成中间字幕文件,包括以下步骤:
根据得到的对应关系集合Q,检查台词剧本中的相邻序号的台词句是否对应到同一个初始字幕段序号,如果相同,则将该相邻序号的台词句合并,然后将该初始字幕段的起止时间设置合并后的字幕段的起止时间;否则,直接取该初始字幕段序号的开始和结束时间作为新字幕段的开始和结束时间;
对每个设置开始和结束时间的新字幕段进行序号设置,得到中间字幕文件。
5.根据权利要求1至4之一所述的台词同步字幕的制作方法,其特征在于,所述对中间字幕文件中不准确或没有的对应关系的台词,进行标记;经后续有针对性的人工处理和审校,得到最终字幕文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于语联网(武汉)信息技术有限公司,未经语联网(武汉)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510046064.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有嵌入式ROM的SRAM
- 下一篇:电话线质量语音的基音周期提取方法