[发明专利]多媒体资源生成方法、装置、电子设备及存储介质在审
申请号: | 202211207353.X | 申请日: | 2022-09-30 |
公开(公告)号: | CN115482324A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 陈曦;田浩;宋愷晟 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06T15/00 | 分类号: | G06T15/00;G06T15/10;G06F16/332;G06F16/33;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京易光知识产权代理有限公司 11596 | 代理人: | 阎敏;王姗姗 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多媒体 资源 生成 方法 装置 电子设备 存储 介质 | ||
本公开提供了多媒体资源生成方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉深度学习、自然语言处理、智能搜索等技术领域。具体实现方案为:将目标文本与目标场景中的多个网格块的语义信息进行匹配操作,得到与目标文本匹配的目标网格块;其中,每个网格块为目标场景的部分场景区域;基于目标文本中关于场景元素的特征信息,确定目标网格块的三维场景描述文件;基于目标网格块的三维场景描述文件和三维游戏引擎,生成多媒体资源。本公开中基于目标场景的多个网格块定位目标文本适用的场景,生成合适的三维场景描述文件,然后采用三维游戏引擎进行渲染,能够生成效果稳定且画质可靠的多媒体资源。
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、智能搜索等技术领域。
背景技术
在给定一段文本的情况下,可采用AI(Artificial Intelligence,人工智能)网络模型技术生成该文本对应的画面。例如,一段文本描述了“一个女孩在跳舞”,则AI网络模型可生成一个女孩跳舞的图片。
然而,当前基于AI网络模型生成的图片稳定性差,且仅能生成少量的图片,生成的视频效果差。由此如何基于给定文本生成多媒体资源仍有待研究。
发明内容
本公开提供了一种多媒体资源生成方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种多媒体资源生成,包括:
将目标文本与目标场景中的多个网格块的语义信息进行匹配操作,得到与目标文本匹配的目标网格块;其中,每个网格块为目标场景的部分场景区域;
基于目标文本中关于场景元素的特征信息,确定目标网格块的三维场景描述文件;
基于目标网格块的三维场景描述文件和三维游戏引擎,生成多媒体资源。
根据本公开的另一方面,提供了一种多媒体资源生成装置,包括:
匹配模块,用于将目标文本与目标场景中的多个网格块的语义信息进行匹配操作,得到与目标文本匹配的目标网格块;其中,每个网格块为目标场景的部分场景区域;
确定模块,用于基于目标文本中关于场景元素的特征信息,确定目标网格块的三维场景描述文件;
生成模块,用于基于目标网格块的三维场景描述文件和三维游戏引擎,生成多媒体资源。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的多媒体资源生成方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的多媒体资源生成方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的多媒体资源生成方法。
本公开中,基于目标场景的多个网格块定位目标文本适用的场景,生成合适的三维场景描述文件,然后采用三维游戏引擎进行渲染,能够生成效果稳定且画质可靠的多媒体资源。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211207353.X/2.html,转载请声明来源钻瓜专利网。