闻登网

闻登网
闻登新闻综合门户网站!

阿里云推视频生成大模型 未来可应用于电影制作

更新时间:2023-09-12 09:40:44点击:

阿里云推出全新视频生成大模型I2VGen-XL,让用户能够上传一张图片后生成一段高分辨率的视频。该模型在魔搭社区开放体验,用户上传一张图片后,大约2分钟左右就能生成一段1280*720的高分辨率视频。未来,该模型将进一步实现2K超清效果,可应用于短视频内容生产、电影制作等场景。

1.png

相较于火爆的AI绘画创作大模型,视频生成大模型的技术门槛更高。该模型需要克服文本和视频内容匹配度、视频画面质量、画面连续性等多个技术挑战。此前,阿里云和微软等科技公司推出了一系列可控视频生成的研究成果。但是,这些模型生成的视频画面清晰度无法满足真实场景应用的需求。

为了解决这个问题,阿里云提出了新的思路。I2VGen-XL模型分为两个阶段,首先在低分辨率条件下保证生成结果和给定图像语义的匹配度,然后通过视频扩散模型(VLDM)来提高视频分辨率,同时提升时间和空间上的一致性,保证最终视频内容的清晰度和连贯性。这使得该模型能够实现1280*720高分辨率的突破,并在画面细节的展现上领先于现有模型。据介绍,该模型的训练使用了多种风格的视频数据,因此可以生成科技感、电影色彩、卡通风格和素描等类型丰富的视频。

目前,I2VGen-XL模型和代码已经开源,吸引了国内外用户和开发者的广泛体验和二次开发。许多创意AI视频内容涌现出来,如在城堡上展翅的恐龙、宇航员在飞船中行走的科幻电影画面等。知名AI社交媒体分析师Ahsen Khaliq发布了多条由该模型生成的视频效果,并表示该模型在清晰度、纹理、语义和时间连续性方面具有优势。

阿里云在视觉生成领域已经推出了AI绘画创作大模型通义万相(基座模型Composer)和可控视频生成模型VideoComposer。该团队在该领域发表了60多篇CCF-A类论文,并在国际顶级视觉竞赛中获得10多个冠军。这次推出的I2VGen-XL视频生成大模型,为用户创作高分辨率视频提供了新的工具和可能性。