英伟达偷偷搞了个大动作：136 个 AI 模型免费用，Kimi、DeepSeek、Qwen 全在列

发现了一个宝藏

前几天在折腾 Hermes Agent 的时候，顺手申请了一下英伟达的 NIM API。

本以为就是个普通的开发者注册，结果拿到 Key 之后一看模型列表——

136 个模型，全部免费调用。

我以为看错了，又数了一遍。没看错，136 个。而且不是那种没人用的小模型，是 Kimi K2.6、DeepSeek V4、Llama 4、Qwen 3.5、Mistral Large 这些你平时花钱才能用的模型。

到底有哪些模型？

我按厂商整理了一下，挑重点的说：

国产模型（重点看）

Kimi K2.6 — 月之暗面最新旗舰，推理能力强
Kimi K2 Instruct / Thinking — K2 系列另外两个版本
DeepSeek V4 Pro — 深度求索旗舰，代码和推理都很强
DeepSeek V4 Flash — V4 的轻量版，速度快
DeepSeek Coder 6.7B — 代码专用
Qwen 3.5-397B — 通义千问最大杯，MoE 架构
Qwen 3.5-122B — 中杯，性价比高
Qwen 3 Coder 480B — 代码专用，参数量最大
Qwen 3 Next 80B — 新一代推理模型
GLM 5 / 5.1 / 4.7 — 智谱全家桶
MiniMax M2.5 / M2.7 — MiniMax 最新模型
01-ai Yi Large — 零一万物

Meta Llama 系列

Llama 4 Maverick 17B-128E — 最新 MoE 架构
Llama 3.3 70B — 性价比之王
Llama 3.2 90B Vision — 多模态，能看图
Llama 3.1 70B / 8B — 经典款
CodeLlama 70B — 代码专用

Google Gemma 系列

Gemma 4 31B — 最新版本
Gemma 3 27B / 12B / 4B — 三代全家桶
Gemma 3n E2B / E4B — 超轻量端侧模型

Mistral 系列

Mistral Large 3 675B — 675B 参数，巨无霸
Mistral Large 2 Instruct — 上一代旗舰
Devstral 2 123B — 代码 Agent 专用
Codestral 22B — 代码生成
Mixtral 8x22B / 8x7B — MoE 经典

NVIDIA 自家模型

Nemotron Ultra 253B — NVIDIA 最强推理
Nemotron Super 49B V1.5 — 性价比款
Nemotron 3 Super 120B — MoE 架构
Llama Nemotron 系列 — 基于 Llama 微调

其他

OpenAI GPT-OSS 120B / 20B — OpenAI 的开源模型
IBM Granite 系列
Writer Palmyra 122B
Step 3.5 Flash（阶跃星辰）

光国产模型就有 30 多个，这个阵容说实话有点猛。

怎么用？

第一步：申请 API Key

打开 https://build.nvidia.com/ ，注册账号，创建 API Key。一分钟搞定。

第二步：调用 API

它用的是 OpenAI 兼容接口，所以你可以直接用任何支持 OpenAI 的工具：

curl https://integrate.api.nvidia.com/v1/chat/completions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "moonshotai/kimi-k2.6",
    "messages": [{"role": "user", "content": "你好"}]
  }'

第三步：接入工具

如果你用 Cursor、Claude Code、Hermes Agent 这类工具，直接把 API 地址和 Key 填进去就行。

以 Hermes Agent 为例：

# 设置 API Key echo 'NVIDIA_API_KEY=你的Key' >> ~/.hermes/.env 修改配置

hermes config set model.default moonshotai/kimi-k2.6 hermes config set model.provider nvidia hermes config set model.base_url https://integrate.api.nvidia.com/v1

免费有什么限制？

说实话，免费的东西肯定有限制：

速率限制：每分钟请求数有上限，具体数字没公布，但正常使用够了
并发限制：不能同时发太多请求
不能商用：免费额度仅供开发测试
稳定性：高峰时段可能排队

但对个人开发者来说，这个额度完全够用了。写代码、做实验、搞个人项目，随便造。

我的使用感受

我实际测了几个模型：

Kimi K2.6：响应速度大概 10-15 秒，推理能力确实强，适合复杂任务。但速度比 DeepSeek 慢不少。

DeepSeek V4 Pro：速度快，质量也不差。日常用这个最顺手。

Qwen 3.5-397B：参数量最大的那个，中文理解很好，但响应也比较慢。

Llama 3.3 70B：速度快，英文场景表现好，中文也还行。

我的建议是：日常用 DeepSeek V4 Flash（快），复杂任务用 Kimi K2.6 或 DeepSeek V4 Pro（准），尝鲜可以试试 Qwen 3.5-397B（大）。

值不值得用？

如果你是：

个人开发者：强烈推荐。免费的旗舰模型，不用白不用
学生/研究者：做实验、跑 benchmark 的好选择
自媒体人：写文章、做内容的 AI 助手
想体验最新模型的人：Kimi K2.6、DeepSeek V4 这些平时都要花钱，现在免费

如果你是：

企业用户：免费额度不够商用，还是得买正式版
需要高并发的场景：速率限制可能不够
对延迟敏感的场景：部分模型响应偏慢

总结

英伟达这波操作，本质上是在用免费额度培养开发者生态。对我们普通用户来说，就是白嫖的好机会。

136 个模型，覆盖了国内外主流厂商，全部免费。这种好事不知道能持续多久，趁现在赶紧薅。

申请地址：https://build.nvidia.com/

注册一分钟，白嫖一整年。