[发明专利]一种新闻字幕摘要生成方法和系统在审
申请号: | 202111395292.X | 申请日: | 2021-11-23 |
公开(公告)号: | CN114064968A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 刘潇婧 | 申请(专利权)人: | 新华智云科技有限公司 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/75;G06F40/30 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 高明翠 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 字幕 摘要 生成 方法 系统 | ||
本发明公开了一种新闻字幕摘要生成方法和系统,所述方法包括如下步骤:获取新闻视频数据,对所述新闻视频数据进行预处理,将视频切分为固定时长的视频片段;将所述视频片段中的文字块进行摘要标注;建立每个文字块在视频片段序列中的空间和时间连接关系的时空图,生成视频字幕的文字块边缘特征向量;获取每个视频片段文字块的语义特征向量,并将所述语义特征向量和其他文字块的语义特征向量以及两文字块间的边缘特征向量进行拼接,将拼接后的向量输入到全连接层;将所述全连接层输出的向量经过自注意力层加权求和后生成每个文字块的时空特征向量;将所述时空特征向量输入到二分类模型中进行训练,根据二分类模型的输出结果对每一文字块进行摘要主题句的判断。
技术领域
本发明涉及互联网新闻技术领域,特别涉及一种新闻字幕摘要生成方法和系统。
背景技术
新闻视频往往将新闻的标题、总结性语句、口播文字和采访对话以字幕的形式进行展示,以方便观众的理解和观看,所以利用字幕内容进行摘要生成对后续的视频理解和再生产有着非常重要的意义。目前主要的技术方案是通过对视频进行解帧,将视频分解成一帧帧的图片,然后利用OCR解析技术,识别图片中字幕的文字和位置信息,再通过将相同的文字进行合并,并将每张图片中的文字按一定逻辑进行拼接,利用深度学习模型或规则生成新闻视频的摘要。目前上述现有技术仍然存在如下技术缺陷:新闻视频中具有总结性的重要字幕往往出现时间更长,字体也更大,以往的深度学习模型没有同时考虑字幕的时间和空间特征,而且特征的提取是手动设计,需要领域知识的支撑,人工成本较高,通用性不强。
发明内容
本发明其中一个发明目的在于提供一种新闻字幕摘要生成方法和系统,所述方法和系统采用时空图神经网络,将新闻视频的空间位置信息和时间长度建立所述时空图神经网络模型,充分考虑字幕周边的时空特征,可以解决人工处理的高成本和低效率的问题。
本发明另一个发明目的在于提供一种新闻字幕摘要生成方法和系统,所述方法和系统对视频字幕进行预处理,所述预处理包括对视频字幕进行识别和切块,并将相同的文字块合并,从而提高所述时空图神经网络模型处理效率。
本发明另一个发明目的在于提供一种新闻字幕摘要生成方法和系统,所述方法和系统采用标注法,将可以生成摘要的文字块进行标注,在模型训练中可以更好地识别摘要文字块。
为了实现至少一个上述发明目的,本发明进一步提供一种新闻字幕摘要生成方法,所述方法包括如下步骤:
获取新闻视频数据,对所述新闻视频数据进行预处理,将视频切分为固定时长的视频片段,将所述视频片段中的文字块进行摘要标注;
建立每个文字块在视频片段序列中的空间和时间连接关系的时空图,生成视频字幕的文字块边缘特征向量;
获取每个视频片段文字块的语义特征向量,并将所述语义特征向量和其他文字块的语义特征向量以及两文字块间的边缘特征向量进行拼接,将拼接后的向量输入到全连接层;
将所述全连接层输出的向量输入自注意力层后加权求和生成每个文字块的时空特征向量;
将所述时空特征向量输入到二分类模型中进行训练,根据二分类模型的输出结果对每一文字块进行摘要主题句的判断。
根据本发明其中一个较佳实施例,对所述新闻数据进行预处理的方法包括:对所述视频数据进行解帧,获取多张图片形式的视频帧,采用文字识别技术识别每一视频帧中的文字并获取每一文字对应的时间戳和文字位置数据,切割生成每个视频帧文字块。
根据本发明另一个较佳实施例,对所述新闻数据进行预处理的方法还包括:将所述视频数据以固定时长进行切割,生成具有固定时长的视频片段,并将所述视频片段中具有相同文本信息和位置的文字块合并成单个文字块。
根据本发明另一个较佳实施例,所述文字块边缘特征向量的生成方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华智云科技有限公司,未经新华智云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111395292.X/2.html,转载请声明来源钻瓜专利网。