Gemini 3.5 Flash来了：速度快4倍，性能干翻Pro，中杯价格大杯能力

谷歌刚扔了个"炸弹"

5月20日，谷歌I/O开发者大会上正式发布了Gemini 3.5 Flash。

说实话，我看到发布会数据的时候有点懵——一个Flash级别的"中杯"模型，编码和Agent能力居然全面超过了自家上一代Gemini 3.1 Pro大杯模型。

而且输出速度是其他模型的4倍。

这是什么概念？你平时用ChatGPT或者Claude，等它生成一段长文大概要十几秒。同样的内容，3.5 Flash三秒就给你吐出来了。

Gemini 3.5 Flash Benchmark

核心数据：到底有多强

先看速度。Gemini 3.5 Flash的推理速度达到了289 tokens/秒，是Claude Opus 4.7和GPT-5.5 xhigh的4倍左右。在Artificial Analysis的"智能指数vs输出速度"坐标系里，它精准落在右上角——又快又聪明。

再看基准测试：

Terminal-Bench 2.1（Agent终端编码）：76.2%，几乎追上GPT-5.5的78.2%，Gemini 3.1 Pro只有70.3%
MCP Atlas（多步骤工作流）：83.6%，全场最高
CharXiv Reasoning（多模态理解）：84.2%，全场最高
MMLU（通用语言理解）：比3.1 Pro提升3.2个百分点
HumanEval（代码生成）：通过率提升2.8个百分点

谷歌CEO Sundar Pichai原话："3.5 Flash比3.1 Pro更强，而3.1 Pro才发布四个月。它达到了前沿旗舰模型90%的性能，速度快4倍。"

不过也别太神话它。在SWE-Bench Pro（Agent编码硬榜）上，3.5 Flash拿了55.1%，低于GPT-5.5的58.6%，更比Claude Opus 4.7的64.3%低不少。Flash级别嘛，价格便宜速度快，某些极限场景差一截也正常。

价格：同梯队没有对手

这是大家最关心的部分：

Gemini 3.5 Flash：输入$1.5/百万token，输出$9/百万token
Claude Sonnet 4.6：$3/$15
GPT-5.5：$5/$30
Claude Opus 4.7：$5/$25

中杯的价格，端上来的是大杯的菜。

当然，比上一代3 Flash的0.5/3美元涨了3倍，不少网友吐槽这是"温水煮青蛙"。但横向对比，3.5 Flash在第一梯队模型里确实是最便宜的。

Sundar Pichai还给了个数字：谷歌企业客户每天消耗一万亿token，如果把80%负载切到Flash模型，一年能省超过10亿美元。

Gemini 3.5 Ecosystem

不只是模型，还有生态

同一天谷歌还发布了几个配套产品：

Gemini Spark：一个24小时不停机的AI Agent，基于3.5 Flash，能帮你发邮件、填表格、管日程。下周先给AI Ultra订阅用户开放测试。这个听起来很像Anthropic的Claude Agent和OpenAI的Codex定位。

Gemini Omni Flash：首个能从文字、图片、音频、视频直接生成视频的模型。演示里重力、碰撞都能还原。

反重力 2.0（Antigravity）：谷歌的AI编程平台，对标Claude Code和Codex。现在支持多个子Agent协作完成任务。发布会上展示了一个案例：93个子智能体协同工作，12小时生成26亿tokens的代码和设计文档，成功构建出可运行的操作系统核心。

这个Antigravity的案例挺震撼的——子智能体自动分配任务、验证结果、迭代优化，不需要人类持续介入。当然，这更像是一个技术演示，实际生产环境能不能这么丝滑还得打个问号。

技术上做了什么

从技术角度看，3.5 Flash的高推理速度来自两个层面：

模型层面，采用了稀疏注意力机制和动态计算图技术，减少了冗余的参数计算。简单说就是让模型在处理每个token时，不需要"看"所有其他token，而是只关注最相关的部分。

硬件层面，深度适配了谷歌最新的TPU v6e芯片，借助专用加速指令集实现并行处理。这是谷歌自研芯片的优势——模型和硬件联合优化。

竞争格局：2026年AI模型战争白热化

谷歌这波操作的策略很明显：用Flash的价格卖Pro的能力。

和OpenAI、Anthropic相比，谷歌模型能力可能不是每个维度都最强，但谷歌有9亿月活的Gemini App和全球最大的云基础设施。用低价高性能的Flash模型快速铺开用户规模，拉开生态差距。

目前各大厂商的反应：

微软：宣布Azure AI推理速度提升30%
OpenAI：正在研发GPT-5.5升级版，目标推理速度提升5倍
Anthropic：计划在Claude Opus 5.0引入动态推理优化技术

全球AI军备竞赛已经从"谁的模型更强"升级到了"谁的模型又强又快又便宜"。

对普通人意味着什么

如果你是开发者，3.5 Flash已经可用了——Gemini App、谷歌搜索AI Mode、AI Studio、Antigravity、Gemini API全部同步上线。价格低、速度快，用来做Agent开发、批量处理、实时对话都是好选择。

如果你只是日常使用，Gemini App月活已经突破9亿，免费用户也能享受到3.5 Flash的升级。谷歌把烧出来的能力塞进Flash模型里免费给用户用，用规模换市场。

不过要提醒一句，Gemini 3.5 Pro还在内部测试，预计下个月发布。Pro版本才是真正对标GPT-5.5和Claude Opus的旗舰。3.5 Flash更像是一道"开胃菜"。

写在最后

中杯价格，大杯能力，4倍速度。

谷歌用3.5 Flash告诉整个行业：高性能AI模型不一定要那么贵。当价格战打响的时候，最终受益的是我们每一个用户。

当然，模型强不强，最终还是要看实际使用效果。基准测试是一回事，日常体验是另一回事。感兴趣的可以去AI Studio或者Gemini App里亲自试试。

信息来源：AI信息Gap（百家号）、TMTPost（钛媒体）等公开报道。文中观点仅供参考，不代表任何机构立场。

本文内容由AI辅助整理生成，仅供参考