《AI 前沿速递 | 2026年05月10日》

ActCam：零样本联合相机与三维运动控制的视频生成方法

英文标题： ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation

作者： Omar El Khalifi, Thomas Rossi, Oscar Fossey, Thibault Fouque, Ulysse Mizrahi, Philip Torr, Ivan Laptev, Fabio Pizzati, Baptiste Bellot-Gurlet

摘要： 视频生成一直是 AI 内容创作的核心挑战之一，而要同时控制演员动作和镜头运动更是难上加难。ActCam 提出了一种零样本方法，能在不额外训练的情况下，从驱动视频中提取角色动作，同时允许用户逐帧调节相机的内外参数。它的核心思路很巧妙：利用预训练的图像到视频扩散模型，通过深度图和姿态条件来约束生成过程。具体来说，它采用两阶段引导策略——前期同时用姿态和稀疏深度来保证场景结构，后期丢掉深度只保留姿态引导，让高频细节有空间自由发挥。在多个基准测试上，ActCam 在视角变化较大的场景中表现尤为突出，人类评估也更倾向于它的结果。这为 AI 视频创作提供了一个更灵活的「导演」工具。

UniPool：全局共享专家池的混合专家架构

英文标题： UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

作者： Minbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng

摘要： 混合专家（MoE）架构是大模型扩缩容的关键技术，但传统做法是每一层拥有独立的专家集，参数量随层数线性增长。UniPool 打破了这个惯例——它把所有层的专家放到一个全局共享池中，每层用独立的路由器从池中选取专家。研究团队发现了一个有趣的现象：把深层的路由器替换成随机路由，准确率只掉 1-1.6 个百分点，说明深层路由器存在大量冗余。基于此发现，UniPool 引入池级辅助损失来平衡专家利用率，并用 NormRouter 提供稀疏且尺度稳定的路由。实验显示，在五个不同规模的 LLaMA 架构模型上，UniPool 在验证损失上持续优于传统 MoE，最高降低 0.0386。更关键的是，它证明了专家参数可以随深度次线性增长——用不到 67% 的原始参数量就能达到甚至超过传统 MoE 的效果。这对大模型的高效部署意义重大。

EMO：面向涌现模块化的混合专家预训练

英文标题： EMO: Pretraining Mixture of Experts for Emergent Modularity

作者： Ryan Wang, Akshita Bhagia, Sewon Min

摘要： 当前大语言模型基本是「全家桶」式的——无论你需要的是代码、数学还是特定领域知识，都得加载整个模型。EMO 提出了一种面向模块化的 MoE 架构，让专家子集能够独立使用和组合，而且不需要人工定义哪些专家负责哪些能力。它的核心想法很直觉：同一文档的 token 往往属于相同领域，所以让同一文档内的 token 共享专家池，不同文档使用不同池。这个简单的约束让有意义的专家分组在预训练过程中自然涌现。在 1T token 上预训练的 1B 激活、14B 总参数的 EMO 模型中，只保留 25% 的专家只带来 1% 的性能下降，而传统 MoE 在同样条件下会崩溃。更重要的是，EMO 的专家子集在语义层面（数学、代码等）自动形成了专业化分工，而不是传统 MoE 那种低级语法层面的分化。这为模块化、内存高效的大模型部署开辟了新方向。

验证器支撑的数学推理难题生成框架

英文标题： Verifier-Backed Hard Problem Generation for Mathematical Reasoning

作者： Yuhang Lai, Jiazhan Feng, Yee Whye Teh, Ning Miao

摘要： 让大模型自己出题、自己解题，听起来像是「自给自足」的理想场景，但实际操作中，出题器和解题器的自我博弈很容易陷入奖励黑客——出题器学会出一些看起来很难、但实际无效的「伪难题」。VHG 框架通过引入独立的验证器来解决这个问题。它的设计很直观：在传统的出题-解题二元对抗中加入第三方验证者，让出题器的奖励同时受到题目有效性和难度的双重约束。验证器有符号验证和 LLM 验证两种变体，在不定积分和通用数学推理任务上都进行了评估。实验结果表明，VHG 明显优于所有基线方法。这个思路对推进自主科学研究很有启发——毕竟，出好题和解好题一样重要，甚至更难。

StraTA：基于策略轨迹抽象的智能体强化学习

英文标题： StraTA: Incentivizing Agentic RL with Strategic Trajectory Abstraction

作者： Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

摘要： 让大语言模型当「智能体」去做决策，目前最大的痛点是长程任务中的探索和信用分配——模型只对当前步骤做反应式决策，缺乏全局规划能力。StraTA 在智能体强化学习中引入了显式的策略轨迹抽象：先从任务初始状态采样一个简洁的「策略」，后续动作都基于这个策略执行，然后用分层的 GRPO 风格 rollout 设计同时训练策略生成和动作执行两个模块。它还加入了多样化策略 rollout 和关键性自我判断机制来增强训练。在 ALFWorld、WebShop 和 SciWorld 三个基准上的实验显示，StraTA 在样本效率和最终性能上都稳定优于强基线。ALFWorld 上达到 93.1% 的成功率，WebShop 上达到 84.2%，在 SciWorld 上更是超越了前沿闭源模型。这说明，给智能体一个「战略层」确实能显著提升长程决策能力。

编辑点评

今天的五篇论文围绕两个核心主题展开：大模型架构的效率革命和智能体能力的突破。

在架构层面，UniPool 和 EMO 从不同角度挑战了传统 MoE 的设计范式。UniPool 证明了专家可以跨层共享，用更少的参数达到更好的效果；EMO 则让模块化能力在预训练中自然涌现，为「按需组合」大模型提供了技术路径。两篇论文都在回答同一个问题：大模型的参数是不是一定要那么多？

在智能体和推理层面，StraTA 通过引入策略抽象让智能体从「走一步看一步」升级为「先想清楚再行动」，在多个复杂环境中大幅超越基线。VHG 则关注一个被忽视的环节——高质量的难题生成，用三方博弈框架解决了奖励黑客问题。

ActCam 则为 AI 视频生成带来了更精细的控制能力，让创作者能同时掌控角色表演和镜头语言。

一句话总结：大模型正在从「越大越好」走向「越聪明越好」，架构效率和智能体规划能力是接下来的两大战场。