
当国家空间模型找到扩散模型时,这对世界模型意味着什么?在这个在技术和AI应用中爆炸巨大爆炸的时代,我们最需要的是“热词”,它们收集了其中一些热情的词,从自我护理模型到扩散模型,从护理机制到国家空间的模型,从链条思考到推理模型,为AI世界创造新的可能性。这是我今天要进行的调查。我们收集了“热门单词”,例如长上下文,状态空间模型(SSM),扩散模型和世界模型,以创建新的“世界视频模型”。斯坦福大学,普林斯顿大学和Adobe Research大学吸引了人们对社交网络的关注。文章标题:长上下文状态视频模型文档地址:https://arxiv.org/pdf/2505.20171,要了解该研究的贡献,必须首先定义相关概念。在本文中,世界模型是指用于预测如何的因果模型世界的国家随着行为而发展。它允许对复杂环境进行交互式模拟。视频扩散模型已成为一种有前途的世界建模方法。但是,第一个视频传播模型不适合交互式应用程序,因为它们将自己限于生成固定长度的视频,但是最近的体系结构允许通过预测自动旋转滑动窗口来生成无限长度的视频。这为新的范式打开了道路。基于交互式控制信号,视频扩展模型可以不断生成视频帧,以实现视觉世界的交互式模拟。但是,由于theattiention机制的上下文长度有限,世界现有视频模型的时间内存非常有限。这种限制使得很难模拟一个长期一致的世界。例如,如果您使用现有视频视频模型模拟游戏,则可以在右侧看到玩家e再次离开,在整个环境中造成完整的变化(见图1)。原因很容易理解。 Modelola窗口注释不再包含包含原始环境的帧。从理论上讲,内存可以通过长上下文窗口扩展,但是该方法有两个主要问题:训练的计算成本在上下文的持续时间内增加了第二订单百分比,并且太高。每个表的推理时间随上下文的长度线性增加,从而导致生成较慢。这在需要实时需要纵向无限的应用程序(例如游戏)中没有用。那么,我们今天提出的本文的创新是什么?简而言之,他们使用状态空间模型(SSM)实现了长期记忆。关键是Mamba阻塞方案。这允许最好的临时记忆平衡和空间一致性,同时保持因果关系关系。此外,还补充了该计划。最小计算超载允许高产生的保真度。团队介绍了:“与以前的改进非因果视觉任务的SSM的方法不同,我们的方法在根本上是不同的。我们使用SSM来处理因果时间动态,跟踪世界状态并利用序列建模的固有好处。”有关视频传播模型和状态空间模型的基本数学解释,请参见该文档。本研究中的创新将在下面进行详细讨论。以新的方式描述模型的体系结构,该模型以自动回归方法(一次一个框)生成视频帧,因此时间维(框序列)必须是扫描序列的末尾。这种类型的“空间/时间”允许模型在当前框架移至下表之前处理当前框架中的所有空间信息,保留因果限制并防止模型访问未来框架的信息。但是,基于空间的扫描序列阻碍了捕获时间依赖性。这是因为在扁平的令牌序列中,随着时间的推移,芯片彼此之间相差很分开。为了解决这一限制,团队提出了一种平衡时间内存和空间一致性的方法:按时间令牌块和spatial.hice进行分类块。每个块的SSM扫描块。如图3所示(右下方),最近提出的方法分解了沿空间尺寸的原始令牌序列(b_h,b_w,t)。其中b_h和b_w是与层关联的块的高度/宽度,而t是数据时间维度。应该注意的是,所有令牌序列都没有扫描,并且每个令牌块还有另一项扫描。在控制B_H和B_W的值时,可以实现临时相关性和空间一致性之间的平衡。目前,相邻令牌由令牌b_h×b_w i分开基于空间中的传统空间中的h×w代币的nstead。 H和W表示每个盒子的高度/宽度。但是,如果块很小,则可以将空间一致性降低,因为独立的扫描避免了不同的blo子中的令牌相互作用。因此,块大小的选择代表了长期一致的记忆和短期空间一致性之间交换的有效方法。当在不同层中使用B_H和B_W的不同值时,该模型可以充分利用大小块。由于以固定维度表达SSM状态的能力有限,因此很难处理SSM,例如视觉生成等较高的多个任务。被新提出的块阻止的扫描方法通过有效增加每层SSM状态的尺寸来降低此限制,因为每个块都分配了一个单独的状态。他们构成了当地的护理机制。研究表明,线性护理机制(例如Mamba)的变化在与关联内存有关的任务中找到。平均性能。随着视频的产生,Mamba无法获得精确的本地信息,因此框架之间的质量和短期不一致的时间会导致质量差。先前的研究表明,将本地护理机制与SSM结合的混合体系结构可以提高语言建模的有效性。在最近提出的模型中,每次MAMBA扫描后通过框架引入一个本地框架护理模块,如图3所示。在训练过程中,每个令牌都位于同一表和第一个固定尺寸的盒子窗口中。您可以专注于令牌。注意:m掩码的格式为:i和j是序列帧的索引,k是窗口的大小。行动条件。为了允许在生成独裁的过程中进行交互式控制,设备方法是将与每个框架相对应的动作用作入口。在这里,连续的动作值(例如相机位置)是通过PEQMulticapa感知器(MLP)处理,添加到噪声水平的结壳中,并通过自适应标准化层注入网络。对于离散的动作,以下是对与每个可能动作相对应的集成的直接学习:长上下文培训设备通过最近提出的建筑设计改进了模型,以维持长期记忆的模型,但是使用标准扩散训练方案学习长期依赖性仍然很难。由于视频数据包含很多冗余,因此在大多数情况下,模型主要基于相邻的帧。因此,扩散模型通常被归类为局部最小值,无法捕获长期依赖性。在训练过程中,标准扩散强迫总是会独立地为每张图片添加噪声。在这种情况下,该模型通常包含的信息不如本地框架有用,因此,参考远程CONTE的动机有限XT框架。为了鼓励模型专注于遥远的框架并学习长期相关性,团队将传播应用程序与改进的培训计划相结合。如图4所示,该方案在训练过程中保持了完全干净的框架的随机长度的前缀。在随后的帧中添加大噪声意味着与嘈杂的本地框架相比,干净的上下文帧可以提供更多有用的信息,这使其在模型中更有效。这类似于CA2VDM培训计划。通过固定长度的状态进行有效的推理。在推理过程中,根据输入操作,将自动生成新的视频帧。最近提出的混合体系结构保证了VelConstant的场合和内存的使用。具体而言,模型的每个层都是第一个表K的固定长度和每个块的SSM状态的最高轨迹。这可以保证不断使用m在整个推理过程中,与完全因果变压器不同。由于KV缓存存储在所有以前的绘画中,因此这使得内存需求在一代中线性增加。同样,最近提出的方法每帧每帧的恒定表保持生成率,因为局部护理机制和SSM块计算的计算不会随视频的长度而变化。此功能对于世界视频模型模型非常重要,因为这些应用程序通常需要在不损害性能的情况下生成无限期不值得的视频框架。实验性绩效团队评估了最近自己的方法的培训和推理效率和长期记忆能力的术语。为此,他们使用了两个长的视频数据集,并在记住长距离框架信息所需的空间内存任务中评估了模型性能,以生成精确的预测。要获得更详细的介绍他的数据集和评估方法,访问原始文档,并集中于以下实验结果。首先,表2和表3显示了不同模型中存储器迷宫的空间搜索和推断的定量结果。发现最近提出的模型对于所有两个任务指标都是最佳的:搜索和推理。如图5和图6所示,对于这两个任务,其他二次模型的框架预测在一定时间段内就从地面的真相转移了,PBUT PBUT新方法在轨迹范围内保持了精确的预测。图7我们进一步分析了搜索任务中每种方法的性能,并显示搜索准确性的变化,因为生成的帧与搜索框架之间的距离增加。因果变形金刚在训练的背景下运行良好,但在克服了最大训练持续时间后很快就会下降。其他线性复杂性的方法(例如Mamba和Mamba2 + frame Attn)遭受还原ED由于状态空间表达有限而产生的收益率。相比之下,本文档的新方法在所有搜索距离中保持高精度,可与在完整环境中训练的因果变压器相当。此外,该团队还通过Minecraft实验进行,分别在表4和图2中显示了定量和定性结果。在此处比较中,ISTICIPA的模型是强制扩散变压器(DFOT),这是一种在扩散强迫机制下训练的双向变压器。但是,由于该模型的二次复杂性,DFOT经过有限的上下文长度为25幅画。如您所见,新方法可以精确预测先前研究的领域,但是有限上下文Windows的方法无法做到这一点。通常,新方法超过了在25幅画的背景下训练的DFOT和因果变压器。由于轨迹短,所有模型在此数据集中的相似性较小,并且模型仅Ains 100帧环境可预测50幅画。总的来说,100幅画的背景不足以让代理完全观察环境。这可能会导致一系列任务轨迹,这些任务会冒险到以前看不见的领域。在这种情况下,它将减少逐帧相似性的信息量。团队还考虑了新方法的培训和推理成本。图8使用三个指标的评估估计模型的性能:迭代培训成本(左),在发电(中心)中使用内存以及推理期间的计算时间(右)。可以看出,最近提出的方法在所有指标中均显示出极好的可扩展性。训练时间随上下文的长度线性增加,在推理过程中保持恒定的记忆和计算成本。为了比较推理执行时间,团队比较了本地护理机制的执行时间和SSM Updat的独特进度通过ES具有完整护理机制的执行时间,其中KV存储在缓存中的所有先前生成的帧产生。有关更多信息,请参见原始文档。顺便说一句,作为Metreal学习研究所的研究人员Artem Zhoulus在机器的核心下发表了评论,使用SSM来构建世界模型的研究人员可以在一两个年内使用,这使感兴趣的读者可以扩展他们的阅读。 1。使用Ovy World Model:https://recall2imagine.github.io/2,将主项目应用于内存任务。相反世界模型的骨干:RNN,Trans和S4项目地址:https://fdeng18.github.io/s4wm/