在天生式 AI 盛行的视频明天 ,英伟达在文本天生视频规模更进了一步 ,英伟实现为了更高分说率、达做到最更持久。高×
要说现阶段谁是最长 AI 规模的「当红辣子鸡」?天生式 AI 舍我其谁 。搜罗 ChatGPT 等对于话式 AI 谈天运用 、视频Stable Diffusion 等 AI 绘画神器在内 ,英伟天生式 AI 揭示的达做到最下场深深地捉住了人们的眼球。
咱们以图像天生模子为例 ,高×患上益于底层建模技术最近的最长突破 ,它们收获了亘古未有的视频关注。如今,英伟最强盛的达做到最模子构建在天生坚持收集、自回归 transformer 以及散漫模子(diffusion model,高× DM)之上 。其中散漫模子的最长优势在于可能提供安妥以及可扩展的磨炼目的,而且参数密集度个别低于基于 transformer 的竞品模子。
尽管图像规模取患了长足后退,但视频建模却落伍了 ,这主要归罪于视频数据磨炼的高昂合计老本以及缺少大规模果真可用的通用数据集。当初视频分解虽有丰硕的钻研文献,但搜罗先前视频 DM 在内的大少数使命仅能生因素辩率较低且每一每一较短的视频。
因此,若何生因素辩率更高、更长的视频成为一个热门钻研课题。克日慕尼黑大学、英伟达等机构的钻研者运用潜在散漫模子(latent diffusion model, LDM)实现为了高分说率的长视频分解。相关论文已经宣告在 arXiv 上。
名目主页:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
论文地址 :https://arxiv.org/pdf/2304.08818.pdf
在论文中 ,钻研者将视频模子运用于着实天下下场并天生为了高分说率的长视频。他们关注两个相关的视频天生下场,一是高分说率着实天下驾驶数据的视频分解,其在自动驾驶情景中作为模拟引擎具备重大后劲;二是文本教育视频天生,用于创意内容天生。
为此,钻研者提出了视频潜在散漫模子(Video LDM),并将 LDM 扩展到了合计密集型使命 —— 高分说率视频天生。与以往视频天生 DM 使命比照 ,他们仅在图像上预磨炼 Video LDM(概况运用可用的预磨炼图像 LDM),从而应承运用大规模图像数据集。
接着将光阴维度引入潜在空间 DM、并在编码图像序列(即视频)上仅磨炼这些光阴层的同时牢靠预磨炼空间层,从而将 LDM 图像天生器转换为视频天生器(下图左)。最后以相似方式微调 LDM 的解码器以实现像素空间中的光阴不同性(下图右)。
此外,为了进一步提地面央分说率,钻研者对于像素空间以及潜在 DM 上采样器妨碍光阴对于齐 ,将它们转换为光阴不同的视频超分说率模子 。在 LDM 的根基上 ,本文措施以合计以及内存高效的方式天生为了全局毗邻的长视频。对于颇为高分说率的分解,视频上采样器惟独要在当地运行,坚持了较低的磨炼以及合计要求。
最后,钻研者妨碍了消融试验 ,在分说率为 512×1024 的着实驾驶场景视频上对于其措施妨碍了测试 ,实现为了 SOTA 视频品质 ,并分解了多少分钟的视频。此外,他们还微调了 Stable Diffusion,将它酿成一个高效 、强盛的文本到视频天生器,分说率最高可达 1280 × 2048 。
经由将经由磨炼的光阴层迁移至差距的微调文本到图像 LDM,钻研者初次揭示了特色化的文本到视频天生