[发明专利]字幕生成方法及装置、电子设备有效
申请号: | 201910996249.5 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110798636B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 梁志杰 | 申请(专利权)人: | 腾讯数码(天津)有限公司 |
主分类号: | H04N5/278 | 分类号: | H04N5/278;H04N5/265;H04N5/445;H04N21/44;H04N21/439;H04N21/431;H04N21/488;G10L15/26;G06F40/289;G06F16/31 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 300000 天津市滨海新区经济技术开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字幕 生成 方法 装置 电子设备 | ||
本公开提供一种字幕生成方法及装置、电子设备;涉及人工智能技术领域。所述字幕生成方法包括:对字幕文本进行关键词提取并确定各所述关键词的权重信息;根据所述字幕文本对应的音频数据确定各所述关键词的声学特征参数;根据各所述关键词的权重信息以及声学特征参数,确定所述关键词的突出显示效果;根据所述字幕文本以及所述字幕文本中所述关键词的突出显示效果生成目标字幕,并将所述目标字幕添加至目标图像。本公开可以提高字幕的信息内容丰富度以及信息传达效率。
技术领域
本公开涉及人工智能技术领域,具体而言,涉及基于人工智能的一种字幕生成方法、字幕生成方法装置、电子设备以及计算机可读存储介质。
背景技术
在很多场景中,需要向目标图像添加字幕,以通过字幕向观众传达额外的信息或者通过字幕辅助观众理解配音内容。
以视频文件为例,一种添加字幕的技术方案是,选择视频文件的某一时间节点对应的目标图像后,输入字幕文本并将字幕文本手动拖放到目标图像中指定位置,以完成字幕的添加。
但上述技术方案中,字幕的形式较为单一,信息内容丰富度以及信息传达效率仍存在一定的提升空间。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种字幕生成方法、字幕生成装置、电子设备以及计算机可读存储介质,进而至少在一定程度上提高字幕的信息内容丰富度以及信息传达效率。
根据本公开的一个方面,提供一种字幕生成方法,包括:
对字幕文本进行关键词提取并确定各所述关键词的权重信息;
根据所述字幕文本对应的音频数据确定各所述关键词的声学特征参数;
根据各所述关键词的权重信息以及声学特征参数,确定所述关键词的突出显示效果;
根据所述字幕文本以及所述字幕文本中所述关键词的突出显示效果生成目标字幕,并将所述目标字幕添加至目标图像。
根据本公开的一个方面,提供一种字幕生成方法,包括:
接收音频数据,并对所述音频数据进行语音识别以获取字幕文本;
根据所述字幕文本生成目标字幕添加至目标图像,并对所述目标字幕中的关键词进行突出显示;
其中,所述关键词的突出显示效果是根据所述关键词权重信息以及所述关键词对应的音频片段的声学特征参数确定。
根据本公开的一个方面,提供一种字幕生成装置,包括:
关键词提取模块,用于对字幕文本进行关键词提取并确定各所述关键词的权重信息;
声学特征确定模块,用于根据所述字幕文本对应的音频数据确定各所述关键词的声学特征参数;
显示效果确定模块,用于根据各所述关键词的权重信息以及声学特征参数,确定所述关键词的突出显示效果;
字幕添加模块,用于根据所述字幕文本以及所述字幕文本中所述关键词的突出显示效果生成目标字幕,并将所述目标字幕添加至目标图像。
在本公开的一种示例性实施例中,所述装置还包括:
语音识别模块,用于对所述音频数据进行语音识别以获取所述字幕文本。
在本公开的一种示例性实施例中,所述关键词提取模块包括:
分词处理单元,用于对所述字幕文本进行分词处理,得到多个分词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯数码(天津)有限公司,未经腾讯数码(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910996249.5/2.html,转载请声明来源钻瓜专利网。