
这项由香港华文大学的郭宇伟、字节跨越的杨策元等揣摸团队互助完成的唠叨性揣摸,于2024年12月发表在磋议机视觉限制的顶级会议上。对这项揣摸感风趣的读者不错通过arXiv:2512.15702v1查询完整论文。揣摸团队冷落了一种名为"重采样强制测验"(Resampling Forcing)的全新框架,专门照拂AI视频生成中的"忘记症"问题。
当咱们评述AI生成视频时,大多数东谈主可能会料到那些令东谈主印象长远的短片断。关联词,若是你也曾尝试让AI生成一段较长的视频,你可能会发现一个奇怪的风物:视频开端时还很平日,但跟着时间推移,画面开端变得暧昧、曲解,以致统统崩坏。这就像一个东谈主在讲故事时,开端讲得很好,但说着说着就忘记了前边的情节,最后通盘故事变得不知所云。
这种风物在AI限制被称为"曝光偏差"(exposure bias),它是自总结视频生成模子面对的中枢挑战。自总结模子的职责旨趣雷同于东谈主类讲故事:它需要左证前边照旧生成的内容来决定下一个画面应该是什么样的。在测验阶段,AI模子就像一个学生在课堂上训诲,淳厚会给它提供完满的参考谜底。但在骨子运用中,AI必须依赖我方之前生成的内容,而这些内容经常并不完满。这种测验与骨子运用之间的各异,即是导致视频质料安宁恶化的根底原因。
揣摸团队通过一个生动的比方来解释这个问题:想象一个厨师在学作念菜时,老是使用最清新、最完满的食材进行训诲。但在的确的厨房里,他必须使用之前处理过的、可能照旧有些变质的食材来赓续烹调。闭幕无庸赘述,整谈菜的质料会越来越差。
为了照拂这个问题,之前的揣摸者们尝试了多样方法。有些揣摸给与了"后测验"政策,即先测验一个基础模子,然后再进行额外的休养。关联词,这些方法经常依赖于一个"双向教学模子"或在线判别器。双向教学模子的问题在于它好像"看到将来",这违背了践诺寰宇中时间的单向性原则。就像一个预言家在提示学生时,不小心暴露了将来的信息,导致学生无法的确掌持推明智商。
字节跨越和香港华文大学的揣摸团队冷落的"重采样强制测验"方法,就像是为AI学生创造了一个愈加的确的训诲环境。在这个环境中,AI不再依赖完满的参考良友,而是要学会在不完满的要求下赓续职责。
具体来说,揣摸团队瞎想了一种"自我重采样"机制。这个机制的职责旨趣雷同于一个特殊的测验步调:AI模子最初会专诚在历史画面中引入一些特殊,模拟的确使用时可能出现的不完满情况。然后,它必须基于这些带有特殊的历史画面来展望下一个画面。这么的测验情势使得AI模子变得愈加"鲁棒",即使面对不完满的输入,也能保持相对踏实的输出质料。
这种方法的奥妙之处在于,它并不试图统统根除特殊,而是教训AI如安在特殊存在的情况下赓续平日职责。就像教一个司机不仅要在完满的谈路要求下驾驶,还要学会在雨天、雾天等不睬想要求下安全行驶。
揣摸团队在终了这个想法时,面最后一个攻击的本领挑战:如何模拟的确的模子特殊。他们给与了一种革命的方法,通过自总结重采样来模拟推理时的模子特殊。这个流程分为两个步调:最初,他们向的确视频帧添加噪声,使其左迁到某个中间时间步;然后,使用在线模子权重完成剩余的去噪步调,产生包含模子特殊的左迁帧。
为了铁心这个流程,揣摸团队引入了一个攻击参数:仿真时间步ts。这个参数铁心着历史至意度和特殊校正纯真性之间的均衡。较小的ts值会产生接近的确的左迁样本,饱读吹模子保持对历史帧的至意,但可能导致特殊累积。较大的ts值则为特殊校正提供更大的纯真性,但可能导致内容漂移。揣摸团队通过数学建模,找到了最优的ts散布,确保在两个极点之间获得最好均衡。
另一个攻击革命是"历史路由"机制。跟着视频长度的加多,AI需要处理的历史信息越来越多,这就像一个东谈主的记挂背负越来越重。传统的照拂有筹划是使用"滑动窗口"方法,只原谅最近的几个画面,但这种方法会毁伤恒久依赖相干,影响视频的全局一致性。
揣摸团队冷落的历史路由机制,就像给AI配备了一个智能的记挂照拂系统。这个系统好像动态地从多量历史画面中选择最关联的k个画面进行原谅,而不是简单地只看最近的画面。这种选择是基于内容关联性的,而不是基于时间距离的。就像一个训导丰富的编剧在写续集时,会追忆通盘故事线中最关联的情节,而不单是是上一集的内容。
在本领终了上,揣摸团队使用了点积看成选择尺度,通过查询令牌qi和历史帧刻画符之间的相似度来详情最关联的历史帧。这种方法将每个令牌的着重力复杂度从线性O(L)镌汰到常数O(k),其中L是历史帧数目,k是选择的帧数。当k建筑为一个小值时,不错终了很高的寥落性,但路由机制以头级和令牌级的情势操作,意味着不同着重力头和空间位置的令牌不错路由到不同的历史搀和,集体产生比k帧大得多的灵验接管域。
揣摸团队在实验瞎想上也展现了周至的辩论。他们基于WAN2.1-1.3B架构构建了我方的方法,并加载了预测验权重以加快陆续。原始模子使用双向着重力生成5秒视频(81帧),分辨率为480×832。揣摸团队修改了时间步要求以救助每帧噪声级别,并使用torch.flex_attention()终明晰寥落因果着重力,莫得加多额外参数。
测验流程给与了分阶段政策。最初,在切换到因果着重力后,模子使用教学强制观点在5秒视频上测验10,000步进行预热。然后调遣到重采样强制测验,先在5秒视频上测验15,000步,再在15秒视频(249帧)上测验5,000步。最后,启用寥落历史路由进行1,500次迭代的微调。测验批次大小为64,AdamW优化器的学习率为5×10^-5。时间步移位因子建筑为s=0.6,top-k历史路由中k=5。为了升迁遵循,历史重采样使用1步Euler求解器。
实验闭幕展示了该方法的权贵上风。在定性比较中,揣摸团队将他们的方法与多个现存的自总结视频生成基线进行了比较,包括SkyReels-V2、MAGI-1、NOVA、Pyramid Flow、CausVid、Self Forcing和LongLive等。闭幕夸耀,大多数严格的自总结模子在长视频生成中齐出现了特殊累积风物,弘扬为神气、纹理和全体清澈度的安宁下落。
稀奇值得着重的是与LongLive的比较。LongLive天然在长距离视觉质料方面弘扬精致,但揣摸团队发现,从短双向教学模子蒸馏的方法无法确保严格的因果相干。在"倒牛奶"的例子中,LongLive产生的液体水平先高潮后下落,违反了物理定律。比拟之下,揣摸团队的方法保持严格的时间因果相干:液体水平单调加多,同期源容器变空。
定量评估使用VBench提供的自动目的进行。悉数模子齐被要求生成15秒视频,然后将其分为三个片断分袂评估,以更好地评估恒久质料。闭幕标明,该方法在悉数视频长度上齐保持了可比的视觉质料和优胜的时间质料。在更长的视频长度上,该方法的性能也与长视频蒸馏基线LongLive相称。
揣摸团队还进行了详备的消融揣摸。他们比较了不同的特殊模拟政策,包括噪声增强、并行重采样和自总结重采样。闭幕夸耀,自总结重采样政策获得了最高质料,其次是并行重采样和噪声增强。揣摸团队以为这是因为加性噪声与模子的推理时特殊模式之间存在不匹配,以及并行重采样只拿获每帧左迁而忽略跨时间的自总结累积。
在仿真时间步移位的揣摸中,揣摸团队发现模子性能对移位因子s的选择相对鲁棒。使用极点值进行消融以更好地可视化移位因子的影响,闭幕夸耀,使用小s值测验的模子弘扬出特殊累积和质料下落,而至极大的s值会镌汰与历史的语义一致性,加多运行内容漂移的风险。因此,适中的s值关于在缓解特殊累积和看管漂移之间获得均衡至关攻击。
寥落历史政策的比较夸耀,路由到前20个历史帧中的前5个好像在75%的寥落性下产生与密集着重力相称的质料。将前5个减少到前1个(95%寥落性)只变成微小的质料下落,证实注解了路由机制的鲁棒性。揣摸团队进一步对比了前1个路由与大小为1的滑动窗口,尽管寥落性极度,但路由机制在鱼的外不雅一致性方面弘扬更优。他们假定滑动窗口着重力的固定和局部化感受野加重了漂移风险,而动态路由使每个查询令牌好像选择不同的历史高下文组合,集体产生更大的灵验感受野,更好地保持全局一致性。
历史路由频率的分析揭示了赞佩的模式。揣摸团队实验了k=1,3,5,7,并可视化了在生成第21帧时前20帧的选择频率。闭幕夸耀,选择频率呈现搀和"滑动窗口"和"着重力积蓄"模式:路由器优先选择运行帧以及紧接在观点之前的最近帧。这种后果在极点寥落性(k=1)下最为表示,跟着寥落性镌汰(k=1→7),散布变得愈加均匀,包含更庸俗的中间帧。
这项揣摸的意旨不单是在于本领革命,更在于它为AI视频生成限制指出了一个新的发展标的。传统的方法试图通过更复杂的模子架构或更大的数据集来升迁质料,而这项揣摸则从测验政策的角度开头,通过模拟的确运用场景来升迁模子的实用性。
天然,这项揣摸也有其局限性。看成基于扩散的方法,该模子需要迭代去噪步调进行推理,终了及时蔓延可能需要后续加快,如少步蒸馏或改进的采样器。此外,测验流程触及处理双重序列(扩散样本和清洁历史),可能通过雷同于其他揣摸的架构优化来改进。
尽管如斯,这项揣摸为将来的AI视频生成本领奠定了攻击基础。它不仅照拂了现存本领的中枢问题,还为长视频生成、及时交互式视频生成等运用场景提供了可行的照拂有筹划。跟着本领的进一步完善,咱们不错期待看到更长、更连贯、更相宜物理定律的AI生成视频。
说到底,这项揣摸最大的孝顺在于它窜改了咱们对AI测验的念念考情势。它告诉咱们,就怕候最好的测验方法不是给AI提供完满的要求,而是让它学会在不完满的践诺中平日职责。这种念念路不仅适用于视频生成,可能对通盘AI限制齐有攻击的启发意旨。关于普通用户来说,这意味着将来咱们将看到愈加踏实、可靠的AI视频生成用具,好像创造出更长、更连贯的视频内容,为内容创作、教学、文娱等限制带来新的可能性。
Q&A
Q1:什么是重采样强制测验,它如何照拂AI视频生成的问题?
A:重采样强制测验是一种新的AI测验方法,它通过专诚在测验时给AI提供不完满的历史画面,让AI学会在的确运用中面对我方之前生成的不完满内容时仍能保持踏实的输出质料,就像教司机在多样路况下齐能安全驾驶相似。
Q2:历史路由机制是如何职责的,有什么上风?
A:历史路由机制就像给AI配备了智能记挂照拂系统,它能从多量历史画面中动态选择最关联的画面进行原谅,而不是简单地只看最近的画面。这么既减少了磋议背负,又保持了视频的恒久一致性。
Q3:字节跨越这项揣摸对普通用户有什么骨子意旨?
A:这项揣摸将让AI视频生成变得愈加踏实可靠,用户不错生成更长、更连贯的视频内容,而不会出现画面安宁崩坏的问题,这对内容创作、教学和文娱等限制齐有攻击价值。