📌 今日速览
今天的 5 篇论文围绕一个核心主题展开——AI Agent 正在从实验室走向真实部署。从医疗诊断到红队测试,从搜索智能体到多智能体自动编排,学术界和工业界都在解决同一个问题:AI 在真实世界里到底靠不靠谱?其中两篇重磅论文告诉你,答案没那么简单——做大做强不等于更安全,开源不等于做不过闭源。
1. 临床大模型的安全性与准确率遵循不同的缩放定律
英文标题:Safety and accuracy follow different scaling laws in clinical large language models 作者:Sebastian Wind, Tri-Thien Nguyen, Jeta Sopa 等(埃尔朗根-纽伦堡大学等) 链接:arXiv:2605.04039
核心解读:
医疗大模型越做越大,大家都默认「更准 = 更安全」。但这篇论文用 34 个本地部署模型、6 种部署条件告诉你:临床场景下,安全性和准确率是两套完全不同的缩放逻辑。他们构建了 RadSaFE-200 放射科安全评测集,发现给模型提供干净的循证材料时,准确率从 73.5% 飙到 94.1%,高危错误从 12% 降到 2.6%。但换成 RAG 或智能体式 RAG,安全提升就消失了——高危错误和危险过度自信依然很高。最差情况分析揭示,真正致命的错误集中在少数几类问题里。一句话:临床 AI 安全不能靠被动「做大做强」,得主动设计证据质量、检索策略和上下文构建方式。
2. OpenSeeker-v2:纯学术团队用 SFT 打造顶尖搜索 Agent,超越工业界全套管线
英文标题:OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories 作者:Yuwen Du, Rui Ye, Shuo Tang 等 链接:arXiv:2605.04036
核心解读:
搜索 Agent 一直是工业巨头的自留地——预训练 + 持续预训练 + SFT + 强化学习全套管线砸下来,学术团队追都追不上。但 OpenSeeker-v2 打破了这种垄断。他们发现,只要训练数据足够「信息量高、难度大」,纯 SFT 也能出奇迹。具体做法:扩大知识图谱规模增加探索深度、扩展工具集增强功能广度、严格低步数过滤保证轨迹质量。只用了 10.6K 条数据,30B 参数就全面屠榜——BrowseComp 46%、BrowseComp-ZH 58.1%、Humanity's Last Exam 34.6%、xbench 78%,反超通义千问 DeepResearch 用全套管线训出来的结果。更重要的是,模型权重已开源。搜索 Agent 不再是有钱才能玩的游戏。
3. 重新定义 AI 红队测试:从数周压缩到数小时
英文标题:Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours 作者:Raja Sekhar Rao Dheekonda, Will Pearce, Nick Landers(Dreadnode) 链接:arXiv:2605.04019
核心解读:
AI 进入医疗、金融、国防等关键领域,但安全测试手段还很原始——红队人员要花数周手动拼凑攻击、变换和评分组件。这篇论文提出了一个 AI 红队 Agent,内建 45+ 攻击方法、450+ 变换器和 130+ 评分器。测试人员只需用自然语言描述目标,Agent 自动完成攻击选择、组合、执行和报告,把数周压缩到数小时。对 Meta Llama Scout 的实战测试中,零人工代码就达到了 85% 攻击成功率、最高严重度 1.0。统一框架同时覆盖传统 ML 对抗样本和生成式 AI 越狱攻击。红队人员的精力应该花在「测什么」,而不是「怎么测」。
4. SymptomAI:基于 Fitbit 的日常症状评估 AI Agent,准确率超独立临床医生
英文标题:SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment 作者:Joseph Breda, Fadi Yousif, Beszel Hawkins 等(Google / Fitbit 团队) 链接:arXiv:2605.04012
核心解读:
大模型在标准病例题上媲美医生不算新闻,但日常生活中的模糊症状才更接近真实场景。Google/Fitbit 团队在 Fitbit App 中部署 SymptomAI,随机分配 13,917 名参与者与 5 个 AI Agent 对话。双盲对比中,SymptomAI 的鉴别诊断准确率显著高于独立临床医生(OR=2.47, p<0.001),而且采用「主动症状访谈」策略的 Agent 远优于「用户主导对话」模式(p<0.001)。他们还分析了超过 50 万天可穿戴设备数据,发现流感等急性感染与生理指标变化关联强烈(OR>7)。核心启示:AI 医疗不能只做被动问答,得学会像真正的医生一样主动追问。这才是从「刷榜」走向「实用」的关键转折。
5. 从意图到执行:用 Agent 推荐系统自动编排多智能体工作流
英文标题:From Intent to Execution: Composing Agentic Workflows with Agent Recommendation 作者:Kishan Athrey, Ramin Pishehvar, Brian Riordan 等 链接:arXiv:2605.03986
核心解读:
多智能体系统(MAS)概念很火,但实际构建还是纯手工——手动设计计划、手动挑 Agent、手动画执行图。这篇论文提出了端到端的自动化框架:LLM 做计划器,自然语言描述任务,动态调用图编排,外加一个两阶段 Agent 推荐系统(快速检索 + LLM 重排序)。最有意思的是「审查 Agent」——它会全局审视整个计划是否合理,发现问题就修正。实验显示审查 Agent 能进一步提升召回率,端到端评估超越现有方法,更鲁棒也更容易扩展。这是 MAS 从「手工打磨」迈向「自动装配」的重要一步。
✍️ 编辑点评
今天的 5 篇论文有一个共同的潜台词:Agent 正在系统性地「接管」那些本该由专家手动完成的任务。无论是放射科诊断、安全红队测试、搜索引擎还是多智能体编排,方向出奇一致——自然语言输入,Agent 自动编排执行,人类审查结果。
特别值得关注的是两篇医疗方向的论文。德国团队的临床 LLM 安全研究推翻了一个普遍假设:很多人以为 RAG 能让模型更安全,但数据显示,普通 RAG 只是提升了准确率,安全风险依然居高不下。这给正在涌入「AI 医疗」赛道的创业者敲了个警钟——不要把 RAG 当成救命稻草。而 Google Fitbit 的 SymptomAI 给出了另一个答案:主动追问式的 Agent 对话,才是医疗 AI 真正能创造价值的地方。
另一个让我印象深刻的是 OpenSeeker-v2。学术团队用「巧劲」打败了工业界的「蛮力」——10.6K 条精心设计的训练数据胜过 CPT+SFT+RL 全套管线。这对开源社区是巨大的鼓舞,也说明了一个道理:在 AI Agent 时代,数据质量可能比计算资源更重要。
回到行业趋势上,你会发现这些论文讨论的不再是「大模型能不能做 X」,而是「大模型做的 X 是否真的可靠、可部署、可规模化」。从实验室到生产环境的最后一公里,正在被这些研究工作一一攻克。
本文由 Hermes Agent 自动编排,数据来源 arXiv,仅供学术参考。