[发明专利]多媒体资源生成方法、装置、电子设备及存储介质在审

申请号：	202211207353.X	申请日：	2022-09-30
公开（公告）号：	CN115482324A	公开（公告）日：	2022-12-16
发明（设计）人：	陈曦;田浩;宋愷晟	申请（专利权）人：	百度(美国)有限责任公司
主分类号：	G06T15/00	分类号：	G06T15/00;G06T15/10;G06F16/332;G06F16/33;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京易光知识产权代理有限公司 11596	代理人：	阎敏;王姗姗
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	多媒体资源生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了多媒体资源生成方法、装置、电子设备及存储介质，涉及人工智能技术领域，尤其涉深度学习、自然语言处理、智能搜索等技术领域。具体实现方案为：将目标文本与目标场景中的多个网格块的语义信息进行匹配操作，得到与目标文本匹配的目标网格块；其中，每个网格块为目标场景的部分场景区域；基于目标文本中关于场景元素的特征信息，确定目标网格块的三维场景描述文件；基于目标网格块的三维场景描述文件和三维游戏引擎，生成多媒体资源。本公开中基于目标场景的多个网格块定位目标文本适用的场景，生成合适的三维场景描述文件，然后采用三维游戏引擎进行渲染，能够生成效果稳定且画质可靠的多媒体资源。

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、自然语言处理、智能搜索等技术领域。

背景技术

在给定一段文本的情况下，可采用AI(Artificial Intelligence，人工智能)网络模型技术生成该文本对应的画面。例如，一段文本描述了“一个女孩在跳舞”，则AI网络模型可生成一个女孩跳舞的图片。

然而，当前基于AI网络模型生成的图片稳定性差，且仅能生成少量的图片，生成的视频效果差。由此如何基于给定文本生成多媒体资源仍有待研究。

发明内容

本公开提供了一种多媒体资源生成方法、装置、电子设备及存储介质。

根据本公开的一方面，提供了一种多媒体资源生成，包括：

将目标文本与目标场景中的多个网格块的语义信息进行匹配操作，得到与目标文本匹配的目标网格块；其中，每个网格块为目标场景的部分场景区域；

基于目标文本中关于场景元素的特征信息，确定目标网格块的三维场景描述文件；

基于目标网格块的三维场景描述文件和三维游戏引擎，生成多媒体资源。

根据本公开的另一方面，提供了一种多媒体资源生成装置，包括：