AI 周报 | 2026年第19周

每周精选 AI 领域最值得关注的论文与动态，帮你省去信息筛选的时间。

🔥 本周必读论文

1. Agentic Proposing：用智能体合成数据训练推理模型

英文标题： Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis

作者： Zhengbo Jiao, Shaobo Wang, Zifan Zhang 等

引用数： 3（Semantic Scholar）

这篇论文提出了一个叫"Agentic Proposing"的框架，核心思路是把训练数据的生成过程变成一个智能体的决策问题。具体来说，一个专门的智能体会动态地选择和组合各种推理技能，通过"反思+工具调用"的迭代流程来生成高质量的训练轨迹。

最有意思的结论是：用这个方法只合成 11,000 条训练数据，就能让一个 30B 参数的模型在 AIME25 数学竞赛上拿到 91.6% 的准确率，性能逼近 GPT-5 这样的闭源模型。这说明了一个很关键的趋势——合成数据的质量比数量重要得多。以前大家觉得要靠大量人工标注数据才能训练好推理模型，现在看来，少量高质量的合成信号就能达到同样效果。

对从业者来说，这意味着训练成本可能大幅下降。你不再需要几百人的标注团队，一个精心设计的智能体就能搞定数据生成。但挑战在于：怎么保证合成数据的多样性和正确性？这篇论文用 MGPO（多粒度策略优化）来解决这个问题，效果不错。

2. BAPO：用离策略强化学习提升 LLM 推理能力

英文标题： Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

作者： Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun

引用数： 3（Semantic Scholar）

论文链接： arXiv:2602.20722

这篇论文关注的是 LLM 后训练中一个很实际的问题：传统的 on-policy 强化学习方法（比如 GRPO）存在严重的经验浪费——很多有价值的训练样本用一次就丢了。

BAPO（Batch Adaptation Policy Optimization）的解法很直接：维护一个经验缓冲区，动态地重新评估历史上的困难样本，把高质量的样本复用起来。这个思路在传统 RL 里早就有了，但应用到 LLM 推理训练上还是第一次看到这么好的效果。

实验数据很亮眼：在数学、规划和视觉推理任务上，BAPO 比 GRPO 平均提升了 12.5%。更关键的是，它解决了 40.7% 的基础模型一直搞不定的问题。这说明离策略方法在 LLM 训练中确实有很大潜力，特别是在处理困难样本方面。

对实际应用的启示是：如果你在用 RL 做模型微调，不妨考虑引入经验回放机制，可能比单纯的 on-policy 训练效率高很多。

3. EMO：让 MoE 模型实现真正的模块化

英文标题： EMO: Pretraining Mixture of Experts for Emergent Modularity

作者： Ryan Wang, Akshita Bhagia, Sewon Min

引用数： 新论文（本周发布）

论文链接： arXiv:2605.06663

这篇论文解决的是 MoE（混合专家）模型的一个老大难问题：虽然 MoE 理论上只激活部分专家，但实际上你没法真的只用一部分专家来处理特定领域的问题，因为标准 MoE 的专家是按语法层面特化的，不是按语义层面。

EMO 的做法很巧妙：让同一篇文档的 token 共享同一个专家池，不同文档用不同的池。这个简单的约束就能让专家在预训练过程中自然地按语义领域（数学、代码、文本等）分组。

实验结果：一个 1B 活跃参数、14B 总参数的 EMO 模型，作为完整模型时性能和标准 MoE 一样。但关键优势在于——只保留 25% 的专家，性能只掉 1 个百分点；保留 12.5% 的专家，性能只掉 3 个百分点。而标准 MoE 在同样设置下直接崩了。

这对实际部署意义很大。想象一下，你的服务器内存有限，但需要同时服务数学推理和代码生成。用 EMO，你可以只加载对应的专家子集，大幅节省内存，同时性能几乎不受影响。

📝 热门博客

1. OpenAI：Running Codex Safely

发布日期： 2026年5月8日

OpenAI 发布了一篇关于 Codex 安全运行机制的深度文章。核心内容是他们如何通过沙箱隔离、审批流程、网络策略和原生遥测来确保 Codex 在企业环境中的安全使用。这篇文章的价值在于它揭示了 AI 编程代理在实际部署中面临的信任问题——不是模型能力不够，而是怎么让企业放心地让它访问代码库和生产环境。对于正在部署 AI 编程工具的团队来说，这篇是必读的安全参考。

2. HuggingFace：Introducing Llama 4

HuggingFace 官方博客详细介绍了 Llama 4 系列模型的使用方法。文章覆盖了模型的核心改进、Hugging Face 工具链的集成方式，以及实际部署的最佳实践。作为开源社区最重要的模型发布之一，Llama 4 的文章帮助开发者快速上手新模型，特别是工具链部分的讲解对实际开发很有帮助。

3. OpenAI：Advancing Voice Intelligence with New Models

发布日期： 2026年5月7日

OpenAI 在 API 中推出了新的实时语音模型，支持推理、翻译和语音转录。这篇文章的亮点在于展示了语音 AI 从"听懂话"到"边听边想"的进化——新模型不仅能识别语音，还能在实时对话中进行推理和多语言翻译。对做语音交互产品的人来说，这意味着以前需要多个模型串联的流程现在一个模型就能搞定。

💡 主编观点

这一周的 AI 研究有一个很明显的主线：效率。

不是那种"我们的模型跑得更快"的效率，而是更深层的——怎么用更少的资源做更多的事。

从论文来看，Agentic Proposing 证明了 11,000 条合成数据就能训练出媲美 GPT-5 的推理模型；BAPO 证明了通过复用历史经验，RL 训练效率能提升 12.5%；EMO 证明了 MoE 模型可以只加载一小部分专家就能保持大部分性能。三篇论文，三个不同的角度，但都在回答同一个问题：AI 训练和部署的成本能不能再降一降？

从产业动态来看，OpenAI 的 Codex 安全文章和语音模型更新也在传递类似信号。Codex 关注的是怎么让 AI 编程代理安全地进入企业工作流，语音模型关注的是怎么用更少的模型完成更多任务。

这种"效率优先"的趋势对行业意味着什么？我觉得有两点值得关注：

第一，合成数据正在成为主流。以前大家觉得数据越多越好，现在看来数据质量才是关键。这意味着中小团队也有机会训练出高质量的专用模型，不必再依赖大规模人工标注。

第二，模块化和可组合性变得更重要。EMO 的模块化 MoE、Codex 的安全沙箱、语音模型的多功能整合，本质上都是在追求"按需组合"的能力。未来的 AI 系统可能不是越来越大，而是越来越灵活。

总的来说，这一周的进展让人看到 AI 正在从"暴力堆算力"转向"聪明用资源"。这对整个行业来说是个好方向——毕竟，不是每个团队都有几千张 GPU。

本文数据来源：Semantic Scholar API、arXiv API、OpenAI Blog RSS、HuggingFace Blog。论文引用数据截至 2026年5月11日。