ActCam:零样本联合相机与三维运动控制的视频生成方法
英文标题: ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
作者: Omar El Khalifi, Thomas Rossi, Oscar Fossey, Thibault Fouque, Ulysse Mizrahi, Philip Torr, Ivan Laptev, Fabio Pizzati, Baptiste Bellot-Gurlet
摘要: 视频生成一直是 AI 内容创作的核心挑战之一,而要同时控制演员动作和镜头运动更是难上加难。ActCam 提出了一种零样本方法,能在不额外训练的情况下,从驱动视频中提取角色动作,同时允许用户逐帧调节相机的内外参数。它的核心思路很巧妙:利用预训练的图像到视频扩散模型,通过深度图和姿态条件来约束生成过程。具体来说,它采用两阶段引导策略——前期同时用姿态和稀疏深度来保证场景结构,后期丢掉深度只保留姿态引导,让高频细节有空间自由发挥。在多个基准测试上,ActCam 在视角变化较大的场景中表现尤为突出,人类评估也更倾向于它的结果。这为 AI 视频创作提供了一个更灵活的「导演」工具。
UniPool:全局共享专家池的混合专家架构
英文标题: UniPool: A Globally Shared Expert Pool for Mixture-of-Experts
作者: Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
摘要: 混合专家(MoE)架构是大模型扩缩容的关键技术,但传统做法是每一层拥有独立的专家集,参数量随层数线性增长。UniPool 打破了这个惯例——它把所有层的专家放到一个全局共享池中,每层用独立的路由器从池中选取专家。研究团队发现了一个有趣的现象:把深层的路由器替换成随机路由,准确率只掉 1-1.6 个百分点,说明深层路由器存在大量冗余。基于此发现,UniPool 引入池级辅助损失来平衡专家利用率,并用 NormRouter 提供稀疏且尺度稳定的路由。实验显示,在五个不同规模的 LLaMA 架构模型上,UniPool 在验证损失上持续优于传统 MoE,最高降低 0.0386。更关键的是,它证明了专家参数可以随深度次线性增长——用不到 67% 的原始参数量就能达到甚至超过传统 MoE 的效果。这对大模型的高效部署意义重大。
EMO:面向涌现模块化的混合专家预训练
英文标题: EMO: Pretraining Mixture of Experts for Emergent Modularity
作者: Ryan Wang, Akshita Bhagia, Sewon Min
摘要: 当前大语言模型基本是「全家桶」式的——无论你需要的是代码、数学还是特定领域知识,都得加载整个模型。EMO 提出了一种面向模块化的 MoE 架构,让专家子集能够独立使用和组合,而且不需要人工定义哪些专家负责哪些能力。它的核心想法很直觉:同一文档的 token 往往属于相同领域,所以让同一文档内的 token 共享专家池,不同文档使用不同池。这个简单的约束让有意义的专家分组在预训练过程中自然涌现。在 1T token 上预训练的 1B 激活、14B 总参数的 EMO 模型中,只保留 25% 的专家只带来 1% 的性能下降,而传统 MoE 在同样条件下会崩溃。更重要的是,EMO 的专家子集在语义层面(数学、代码等)自动形成了专业化分工,而不是传统 MoE 那种低级语法层面的分化。这为模块化、内存高效的大模型部署开辟了新方向。
验证器支撑的数学推理难题生成框架
英文标题: Verifier-Backed Hard Problem Generation for Mathematical Reasoning
作者: Yuhang Lai, Jiazhan Feng, Yee Whye Teh, Ning Miao
摘要: 让大模型自己出题、自己解题,听起来像是「自给自足」的理想场景,但实际操作中,出题器和解题器的自我博弈很容易陷入奖励黑客——出题器学会出一些看起来很难、但实际无效的「伪难题」。VHG 框架通过引入独立的验证器来解决这个问题。它的设计很直观:在传统的出题-解题二元对抗中加入第三方验证者,让出题器的奖励同时受到题目有效性和难度的双重约束。验证器有符号验证和 LLM 验证两种变体,在不定积分和通用数学推理任务上都进行了评估。实验结果表明,VHG 明显优于所有基线方法。这个思路对推进自主科学研究很有启发——毕竟,出好题和解好题一样重要,甚至更难。
StraTA:基于策略轨迹抽象的智能体强化学习
英文标题: StraTA: Incentivizing Agentic RL with Strategic Trajectory Abstraction
作者: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
摘要: 让大语言模型当「智能体」去做决策,目前最大的痛点是长程任务中的探索和信用分配——模型只对当前步骤做反应式决策,缺乏全局规划能力。StraTA 在智能体强化学习中引入了显式的策略轨迹抽象:先从任务初始状态采样一个简洁的「策略」,后续动作都基于这个策略执行,然后用分层的 GRPO 风格 rollout 设计同时训练策略生成和动作执行两个模块。它还加入了多样化策略 rollout 和关键性自我判断机制来增强训练。在 ALFWorld、WebShop 和 SciWorld 三个基准上的实验显示,StraTA 在样本效率和最终性能上都稳定优于强基线。ALFWorld 上达到 93.1% 的成功率,WebShop 上达到 84.2%,在 SciWorld 上更是超越了前沿闭源模型。这说明,给智能体一个「战略层」确实能显著提升长程决策能力。
编辑点评
今天的五篇论文围绕两个核心主题展开:大模型架构的效率革命和智能体能力的突破。
在架构层面,UniPool 和 EMO 从不同角度挑战了传统 MoE 的设计范式。UniPool 证明了专家可以跨层共享,用更少的参数达到更好的效果;EMO 则让模块化能力在预训练中自然涌现,为「按需组合」大模型提供了技术路径。两篇论文都在回答同一个问题:大模型的参数是不是一定要那么多?
在智能体和推理层面,StraTA 通过引入策略抽象让智能体从「走一步看一步」升级为「先想清楚再行动」,在多个复杂环境中大幅超越基线。VHG 则关注一个被忽视的环节——高质量的难题生成,用三方博弈框架解决了奖励黑客问题。
ActCam 则为 AI 视频生成带来了更精细的控制能力,让创作者能同时掌控角色表演和镜头语言。
一句话总结:大模型正在从「越大越好」走向「越聪明越好」,架构效率和智能体规划能力是接下来的两大战场。