[发明专利]基于风格迁移与语音识别的视频自动生成连环画的方法在审

申请号：	202110480998.X	申请日：	2021-04-30
公开（公告）号：	CN113301268A	公开（公告）日：	2021-08-24
发明（设计）人：	杜星亮;肖江;谢乃容;霍静;高阳	申请（专利权）人：	南京大学
主分类号：	H04N5/262	分类号：	H04N5/262;H04N5/278;H04N21/44;H04N21/4402;H04N21/439;H04N21/431;G06K9/00;G10L15/26
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	210023 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于风格迁移语音识别视频自动生成连环画方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，包括如下步骤：

(1)用户提交原始视频和定制化要求数据，并分析输入视频基础信息；

(2)插件选择：根据原始视频特征以及用户的定制化要求，为步骤(3)-(6)选择插件进行处理；

(3)关键帧提取：从视频中提取关键帧，并获得关键帧在视频中的出现时间；

(4)台词生成：提取音频流，自动生成候选台词文本和时间信息；

(5)风格迁移：使用深度学习风格迁移模型将关键帧图像迁移为漫画风格；

(6)连环画生成：按用户要求生成最终连环画并展示给用户。

2.根据权利要求1所述基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，步骤(2)所述的插件选择为依据原始视频的基础信息为自动生成连环画的每个步骤选择算法；根据视频长度，选择生成连环画步骤的排版方式；根据视频色彩丰富程度和画面清晰程度，选择风格迁移算法；根据视频是否内嵌字幕等信息，选择直接提取或语音识别的方法来生成台词。

3.根据权利要求1所述基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，步骤(2)所述的插件选择可自动选择算法或用户自行选择算法。

4.根据权利要求1所述基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，步骤(2)所述的插件可进行组合应用在步骤(3)至(6)中。

5.根据权利要求1所述基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，步骤(3)所述关键帧提取是基于视频编解码中视频压缩算法选取的差异较大关键帧，完整保留视频内容。

6.根据权利要求1所述基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，步骤(4)所述台词生成通过分析音频的分贝变化情况，根据相对静默片段对音频进行分段，得到时间信息，从而给语音识别的文本补充上了时序信息，实现每个分段的端到端的语音识别。

7.根据权利要求1所述基于风格迁移与语音识别的视频自动生成连环画的方法，其特征在于，所述步骤(6)实现过程如下：

按照时间对视频进行分段，选取关键帧并匹配对应台词，根据帧大小调整自适应字幕位置，大小与换行，减少字幕溢出情况；根据迁移后的帧色彩调整字幕风格。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110480998.X/1.html，转载请声明来源钻瓜专利网。