[发明专利]一种处理图片和文本的方法和系统有效
申请号: | 202010938148.5 | 申请日: | 2020-09-09 |
公开(公告)号: | CN111930289B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 袁方;毛娅楠;汪鑫源;董宏昌;李鹏飞;刘智;马景阳;王松祥;李宏明;刘文平 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06F3/0484 | 分类号: | G06F3/0484;G06F3/0486;G06F16/44;G06F16/41;G06F16/901 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 图片 文本 方法 系统 | ||
1.一种处理图片和文本的方法,包括:
解析所述图片和文本,得到多个语句;
确定所述多个语句中的每个语句与图片的对应关系;
根据语句与图片之间的对应关系,产生图文大纲;
获取与所述文本相关的朗读语音配置;以及
根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿;
其中解析所述图片和文本包括:
根据所述图片和文本,构建文档对象模型树;
遍历所述文档对象模型树,产生用于存储文本的自然段、图片和格式控制标志的混合链表;
通过遍历所述混合链表,得到所述多个语句,确定每个语句与图片的对应关系以及产生所述图文大纲;
其中,所述视频草稿具有唯一标识符;视频草稿数据结构包括图文数据、背景音乐数据、朗读设置;
生成视频草稿之后,可以进行预览,直接拖动图片或文字,调整其对应关系,然后再生成视频。
2.如权利要求1所述的方法,其中,所述图片被嵌入在所述文本中,所述方法还包括:
根据所述图片在所述文本中的位置,初始化语句与图片之间的对应关系。
3.如权利要求2所述的方法,其中,所述文本包括段落,所述方法还包括:
对于单独的图片,确定该图片对应于其上方最近的段落;
对于连续多张图片,按照图片和段落的倒序,确定图片和段落的对应关系;以及
对于无图片对应的段落,确定其对应于默认黑场视频。
4.如权利要求1所述的方法,所述结构化的视频草稿还包括背景音乐配置。
5.如权利要求1所述方法,还包括:根据所述结构化的视频草稿产生视频,所述视频包括关于所述图片的视频轨道、关于所述多个语句的字幕轨道、关于所述多个语句的朗读音频轨道。
6.如权利要求5所述的方法,还包括,按照段落下载和在本地保存与所述多个语句相关联的朗读音频文件。
7.如权利要求5所述的方法,其中,所述视频轨道、所述字幕轨道和所述朗读音频轨道基于所述语句和图片之间的对应关系沿时间轴对齐。
8.如权利要求7所述的方法,其中,基于与图片对应的语句的预估朗读时间和/或朗读音频文件的播放时长,确定所述图片的播放时长。
9.一种处理图片和文本的系统,包括:
解析图文单元,用于解析所述图片和文本,得到多个语句;
对应关系单元,用于确定所述多个语句中的每个语句与图片的对应关系;
大纲产生单元,用于根据语句与图片之间的对应关系,产生图文大纲;
朗读配置单元,用于获取与所述文本相关的朗读语音配置;
视频草稿单元,用于根据所述朗读语音配置和所述图文大纲产生结构化的视频草稿;
其中解析所述图片和文本包括:
根据所述图片和文本,构建文档对象模型树;
遍历所述文档对象模型树,产生用于存储文本的自然段、图片和格式控制标志的混合链表;
通过遍历所述混合链表,得到所述多个语句,确定每个语句与图片的对应关系以及产生所述图文大纲;
其中,所述视频草稿具有唯一标识符;视频草稿数据结构包括图文数据、背景音乐数据、朗读设置;
生成视频草稿之后,可以进行预览,直接拖动图片或文字,调整其对应关系,然后再生成视频。
10.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至8任一项所述方法。
11.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时使处理器执行如权利要求1至8任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010938148.5/1.html,转载请声明来源钻瓜专利网。