你的位置：新金瓶梅什么时候上映 > 邓丽欣艳照 >

第四色官方谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

发布日期：2024-09-26 05:11 点击次数：76

谷歌全新视频生成模子 VideoPoet 再次引颈寰宇！十秒超长视频生成结果碾压 Gen-2，还可进行音频生成第四色官方，作风出动。AI 视频生成，能够便是 2024 年下一个最前沿（juan）的限度。

回看往常几个月，RunWay 的 Gen-2、Pika Lab 的 Pika 1.0，国内大厂等大波视频生成模子纷纷流露，收敛迭代升级。

这不，RunWay 一大早就晓谕 Gen-2 撑捏文本转语音的功能了，不错为视频创建画外音。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

固然，谷歌在视频生成上也不甘过期，先是与斯坦福李飞飞团队共同发布了 W.A.L.T，用 Transformer 生成的传神视频引来大波热心。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

今天，谷歌团队又发布了一个全新的视频生成模子 VideoPoet，而且无需特定数据便可生成视频。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

论文地址：https://blog.research.google/ 2023/12 / videopoet-large-language-model-for-zero.html

最令东说念主咋舌的是，VideoPoet 一次能够生成 10 秒超长，且连贯大动作视频，透顶碾压 Gen-2 仅有小幅动作的视频生成。

另外，与卓越模子不同的是，VideoPoet 并非基于扩散模子，而是多模态大模子，便可领有 T2V、V2A 等才调，或将成为异日视频生成的主流。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

网友看后纷纷「恐惧」刷屏。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

不如，接下来不错先看一波体验。

翰墨转视频

在文本到视频的迤逦中，生成的视频长度是可变的，况且能够凭据文本本色展现出多种动作和作风。

比如，熊猫打牌：

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

Two pandas playing cards

南瓜爆炸：

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

A pumpkin exploding, slow motion

宇航员策马飞奔：

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

An astronaut riding a galloping horse图像转视频

VideoPoet 还不错凭据给定的提醒，将输入的图像迤逦成动画。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

左：一艘船在海潮滂湃的海面上飘零，周围是雷电交集的气候，以动态油画作风呈现中：飞过充满醒目星星的星云右：一位拄入部属拐杖的旅行者站在峭壁边，注视着风中翻滚的海雾视频作风化

对于视频作风化，VideoPoet 先展望光流和深度信息，然后再将零散的文本输入到模子。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

左：袋熊戴着墨镜，在阳光明媚的海滩上拿着沙滩球中：泰迪熊在清澈的冰面上溜冰右：一只金属狮子在熔炉的后光下怒吼

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

从左到右：传神，数字艺术，铅笔艺术，水墨，双重曝光，360 度全景视频转音频

VideoPoet 还能生成音频。

如下，率先从模子中生成 2 秒钟的动画片断，然后在莫得任何文本指引的情况下尝试展望音频。这么就能从一个模子中生成视频和音频。

频繁情况下，VideoPoet 以纵向的面容生成视频，以便与短片视频的输出相一致。

谷歌还有益作念了一部由 VideoPoet 生成的很多短片组成的苟简电影。

具体文本比编排上，商议东说念主员要求 Bard 先写一个对于一只旅行浣熊的短篇故事，并附带场景证据和提醒列表。然后，为每个提醒生成视频片断，并将系数生成的片断拼接在一齐，制作出底下的最终视频。

视频讲故事

通过随时代变化的提醒，不错创造视觉上的故事讲明。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

输入：一个由水组成的行走的东说念主彭胀：一个由水组成的行走的东说念主。配景中有闪电，同期从这个东说念主身上懒散出紫色的烟雾

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

输入：两只浣熊骑着摩托车在松树环绕的山路上行驶，8k彭胀：两只浣熊骑着摩托车。流星雨从浣熊死后陨落，撞击大地并激发爆炸LLM 秒变视频生成器

现时，Gen-2、Pika 1.0 视屏生成的发扬足以惊东说念主，然而缺憾的是，无法在连贯大幅动作的视频生成上发扬惊艳。

频繁，它们在产生较大动作时，视频会出现光显的伪影。

对此，谷歌商议东说念主员建议了 VideoPoet，能够实验包括文本到视频、图像到视频、视频作风化、视频确立 / 彭胀和视频到音频等各样的视频生成任务。

比较起其他模子，谷歌的措施是将多种视频生顺利能无缝集成到单一的大讲话模子中，而不依赖针对各个任务差别磨真金不怕火的专用组件。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

具体来说，VideoPoet 主要包含以下几个组件：

预磨真金不怕火的 MAGVIT V2 视频 tokenizer 和 SoundStream 音频 tokenizer，能将不同长度的图像、视频和音频编订迤逦成长入词汇表中的龙套代码序列。这些代码与文本型讲话模子兼容，便于与文本等其他模态进行连合。

自归来讲话模子可在视频、图像、音频和文本之间进行跨模态学习，并以自归来面容展望序列中下一个视频或音频 token。

在大讲话模子磨真金不怕火框架中引入了多种多模态生成学习主张，包括文本到视频、文本到图像、图像到视频、视频帧持续、视频确立 / 彭胀、视频作风化和视频到音频等。此外，这些任务不错相互连合，已矣零散的零样本功能（举例，文本到音频）。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

VideoPoet 能够在各式以视频为中心的输入和输出上进行多任务搞定。其中，LLM 可选拔将文本行为输入，来带领文本到视频、图像到视频、视频到音频、作风化和扩图任务的生成

使用 LLM 进行磨真金不怕火的一个关节上风是，不错重用现存 LLM 磨真金不怕火基础尺度中引入的很多可彭胀的着力转换。

不外，LLM 是在龙套 token 上运行的，这可能会给视频生成带来挑战。

庆幸的是，视频和音频 tokenizer，不错将视频和音频编订编码为龙套 token 序列（即整数索引），并不错将其迤逦回原始暗示。

VideoPoet 磨真金不怕火一个自归来讲话模子，通过使用多个 tokenizer（用于视频和图像的 MAGVIT V2，用于音频的 SoundStream）来跨视频、图像、音频和文本模态进行学习。

视频专区

一朝模子凭据高下文生成了 token，就不错使用 tokenizer 解码器将这些 token 迤逦回可检察的暗示体式。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

VideoPoet 任务盘算：不同模态通过 tokenizer 编码器息争码器与 token 相互迤逦。每个模态周围皆有规模 token，任务 token 暗示要实验的任务类型三大上风

抽象来说，VideoPoet 比起 Gen-2 等视频生成模子，具备以下三大上风。

更长的视频

VideoPoet 通过对视频的终末 1 秒进行颐养，并展望接下来的 1 秒，就不错生成更长的视频。

通过反复轮回，VideoPoet 通不仅不错很好地彭胀视频，而且即使在屡次迭代中，也能针织地保留系数对象的外不雅。

如下是 VideoPoet 从文本输入生成长视频的两个示例：

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

左：宇航员在火星上跳舞，配景是五彩纷呈的烟花右：无东说念主机拍摄的森林中一座相配机敏的精灵石城，城中有一条蔚蓝的河流、瀑布和笔陡的垂直峭壁比较于其他只可生成 3-4 秒视频的模子，VideoPoet 一次就不错生成长达 10 秒的视频。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

无东说念主机拍摄的古堡秋景精确的结果

视频生成诳骗一个相配报复的才调在于，对于生成的动态结果，用户有多大的结果才调。

这将很猛经由上决定了模子能否被用来制作复杂连贯的长视频。

VideoPoet 不但不错为输入的图像通过翰墨描写来添加动态结果，并通过文本提醒来调养本色，来达到预期的结果。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

左：回身看镜头；右：打哈欠

除了撑捏输入图像的视频编订，视频输入也不错通过翰墨进行精确结果。

针对最左边的小浣熊跳舞视频，用户不错通过翰墨描写不同的舞姿来让它跳不同的跳舞。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

生成「左」：跳机器东说念主舞生成「中」：跳 Griddy 舞生成「右」：来一段 Freestyle

相似，还不错对 VideoPoet 生成的现存视频片断，进行交互式编订。

要是咱们提供一个输入视频，就不错变嫌对象的通顺来实验不同的动作。对物体的操作不错以第一帧或中间帧为中心，从而已矣高度的编订结果。

比如，不错从输入视频中立时生成一些片断，然后选拔所需的下一个片断。

如图中最左边的视频被用作条款反射，在脱手提醒下生成四个视频：

「一个可人的锈迹斑斑的破旧蒸汽一又克机器东说念主的特写，机器东说念主身上长满了青苔和新芽，周围是高高的草丛」。

对于前 3 个输出，莫得提醒动作的自主展望生成。终末一个视频，是在提醒中添加了「启动，配景为烟雾」以指引动作生成。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

运镜的手法

VideoPoet 还不错通过在文本提醒中，附加所需的运镜面容，来精确结果画面的变化。

举例，商议东说念主员通过模子生成了一幅图像，提醒为「冒险游戏办法图，雪山日出，清澈河流」。底下的示例将给定的文本后缀添加到所需的动作中。

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

从左到右：拉远、滑动变焦、向左平移、弧型通顺镜头、摇臂拍摄、无东说念主机航拍评估结果

终末，VideoPoet 在具体的实验评测中的发扬又何如呢？

为了确保评估的客不雅性，谷歌商议东说念主员在在各式提醒上运行系数模子，并让东说念主们对其偏好进行评分。

下图自满了在以下问题中，VideoPoet 被选为绿色首选项的百分比。

文本保真度：

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

文本保真度的用户偏好评级，即在准确解任提醒方面首选视频的百分比。

动作好奇性：

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

用户对动作好奇性的偏好评级，即在产生好奇的动作方面，首选视频的百分比。

综上可见，平均有 24-35% 的东说念主以为 VideoPoet 生成的示例比其他模子愈加解任提醒，而其他模子的这一比例仅为 8-11%。

此外，41%-54% 的评估者以为 VideoPoet 中的示例动作更好奇，而其他模子惟一 11%-21%。

对于异日的商议标的，谷歌商议东说念主员暗示，VideoPoet 框架将会已矣「any-to-any」的生成，比如彭胀文本到音频、音频到视频，以及视频字幕等等。

网友不禁提问，Runway 和 Pika 能否反抗住谷歌和 OpenAI 行将推出的文本到视频翻新本事？

谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

参考贵寓：

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

告白声明：文内含有的对外跳转谄谀（包括不限于超谄谀、二维码、口令等体式）第四色官方，用于传递更多信息，从简甄选时代，结果仅供参考，IT之家系数著作均包含本声明。

第四色官方 谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2

第四色官方谷歌 10 秒视频生成模子 VideoPoet 破寰宇记载！LLM 闭幕扩散模子，结果碾压顶流 Gen-2