[发明专利]视频自动生成方法及装置有效
申请号: | 201310473974.7 | 申请日: | 2013-10-11 |
公开(公告)号: | CN103559214B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 杨颖;高万林 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李相雨 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种视频自动生成方法及装置,涉及多媒体技术领域,所述方法包括S1获取解说词文档和解说词语音文件;S2对所述解说词文档进行分行处理,以获得行文本字幕;S3采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;S4将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;S5将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频。本发明通过对解说词文档和解说词语音文件分别进行处理,并将处理后的结果进行合成,以生成视频,减少了视频制作的工作量,并提高了视频的制作效率。 | ||
搜索关键词: | 视频 自动 生成 方法 装置 | ||
【主权项】:
一种视频自动生成方法,其特征在于,所述方法包括以下步骤:S1:获取解说词文档和解说词语音文件;S2:对所述解说词文档进行分行处理,以获得行文本字幕;S3:采用自动语音识别技术对所述解说词语音文件进行识别,得到识别结果;S4:将所述行文本字幕与所述识别结果进行对齐,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间;S5:将所述解说词语音文件、所述行文本字幕及所述音频起止点时间进行合成,以生成视频;步骤S3包括:S301:提取所述解说词语音文件的39维Mel频率倒谱系数音频特征;S302:依照所述解说词文档生成以字为单位的字典及语言模型,并随机选择隐马尔可夫模型工具中的一个声学模型;S303:通过所述39维Mel频率倒谱系数音频特征对所述声学模型进行训练;S304:通过所述字典、语言模型及训练后的声学模型采用所述隐马尔可夫模型工具对所述解说词语音文件进行识别,以获取识别结果文本及所述识别结果文本中每个字对应的音频时间信息;所述步骤S4包括:S401:将每个行文本字幕均转换成文字音节序列C,将所述识别结果文本转换为文字音节序列T,所述文字音节序列C和文字音节序列T的最小单元为音节,所述音节为字的拼音;S402:通过动态时间归整DTW算法在文字音节序列T中搜索与所述文字音节序列C相匹配的最优路径,以获得每个行文本字幕在所 述解说词语音文件中的音频起止点时间;所述步骤S402包括:S4021:将文字音节序列T在横轴标出,将所述文字音节序列C在纵轴标出;S4022:搜索路径时采用3个搜索方向,所述3个搜索方向分别对应斜率为0.5、1或2的直线;S4023:将路径代价最小时的路径作为最优路径,以获得每个行文本字幕在所述解说词语音文件中的音频起止点时间,所述路径代价的计算公式为:Cost(ci,tj)=D(ci,tj)+min{Cost(ci‑2,tj‑1),Cost(ci‑1,tj‑1),Cost(ci‑1,tj‑2)}其中,Cost(c1,t1)=D(c1,t1),D(ci,tj)为音节ci和tj之间的欧式距离,表示两个音节的相似度,相似度越大,D(ci,tj)越小;设所述文字音节序列C的音节个数为M个,C={c1,c2,…cm,…,cM},ci为文字音节序列C中第i个音节,1≤i≤M;设所述文字音节序列T的音节个数为N个,T={t1,t2,…,tn,…,tN},tj为文字音节序列T中第j个音节,1≤j≤N。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310473974.7/,转载请声明来源钻瓜专利网。
- 上一篇:显示网页的方法及浏览器
- 下一篇:卡处理组件