[发明专利]一种处理图片和文本的方法和系统有效
申请号: | 202010938148.5 | 申请日: | 2020-09-09 |
公开(公告)号: | CN111930289B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 袁方;毛娅楠;汪鑫源;董宏昌;李鹏飞;刘智;马景阳;王松祥;李宏明;刘文平 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06F3/0484 | 分类号: | G06F3/0484;G06F3/0486;G06F16/44;G06F16/41;G06F16/901 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 图片 文本 方法 系统 | ||
本公开提供了一种处理图片和文本的方法,包括:解析所述图片和文本,得到多个语句;确定所述多个语句中的每个语句与图片的对应关系;根据语句与图片之间的对应关系,产生图文大纲;获取与所述文本相关的朗读语音配置;以及根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。本公开还提供了一种处理图片和文本的系统。
技术领域
本公开涉及信息技术领域,特别涉及一种处理图片和文本的方法、系统、电子设备及计算机可读介质。
背景技术
目前,随着移动互联网技术的普及和高速发展,人们在手机上花费的时间越来越多,而其中短视频类的应用,又占据了相当大的比例。但是,目前,图文类UGC(UserGenerated Content)视频创作门槛非常高,需要使用复杂的电脑端软件进行长时间的编辑和处理。大量的图文创作者,每天产生海量的图文内容,而有能力发布高质量视频的用户只占其中非常小的一部分。
手机端存在屏幕小,运算性能低的问题,导致很难处理复杂的创作任务。大部分手机端视频创作者会直接使用摄像头录制,然后添加滤镜、美颜和简单字幕进行发布。
因此,急需一种图文视频创作工具,面向图文创作者的创作习惯,直接基于图文内容分段生成大纲,按段落进行视频及字幕预览,结合文字转语音技术,可以编辑、预览、生成视频。
发明内容
有鉴于此,本公开实施例的目的在于提供一种处理图片和文本的方法,通过图文大纲编辑生成视频。
根据本公开的第一方面,提供了一种处理图片和文本的方法,包括:
解析所述图片和文本,得到多个语句;
确定所述多个语句中的每个语句与图片的对应关系;
根据语句与图片之间的对应关系,产生图文大纲;
获取与所述文本相关的朗读语音配置;以及
根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿。
在一个可能的实施例中,其中解析所述图片和文本包括:
根据所述图片和文本,构建文档对象模型树;
遍历所述文档对象模型树,产生用于存储文本的自然段、图片和格式控制标志的混合链表;
通过遍历所述混合链表,得到所述多个语句,确定每个语句与图片的对应关系以及产生所述图文大纲。
在一个可能的实施例中,其中,所述图片被嵌入在所述文本中,所述方法还包括:
根据所述图片在所述文本中的位置,初始化语句与图片之间的对应关系。
在一个可能的实施例中,其中,所述文本包括段落,所述方法还包括:
对于单独的图片,确定该图片对应于其上方最近的段落;
对于连续多张图片,按照图片和段落的倒序,确定图片和段落的对应关系;以及
对于无图片对应的段落,确定其对应于默认黑场视频。
在一个可能的实施例中,所述结构化的视频草稿还包括背景音乐配置。
在一个可能的实施例中,还包括:根据所述结构化的视频草稿产生视频,所述视频包括关于所述图片的视频轨道、关于所述多个语句的字幕轨道、关于所述多个语句的朗读音频轨道。
在一个可能的实施例中,还包括:按照段落下载和在本地保存与所述多个语句相关联的朗读音频文件。
在一个可能的实施例中,其中,所述视频轨道、所述字幕轨道和所述朗读音频轨道基于所述语句和图片之间的对应关系沿时间轴对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010938148.5/2.html,转载请声明来源钻瓜专利网。