发现了一个宝藏
前几天在折腾 Hermes Agent 的时候,顺手申请了一下英伟达的 NIM API。
本以为就是个普通的开发者注册,结果拿到 Key 之后一看模型列表——
136 个模型,全部免费调用。
我以为看错了,又数了一遍。没看错,136 个。而且不是那种没人用的小模型,是 Kimi K2.6、DeepSeek V4、Llama 4、Qwen 3.5、Mistral Large 这些你平时花钱才能用的模型。
到底有哪些模型?
我按厂商整理了一下,挑重点的说:
国产模型(重点看)
- Kimi K2.6 — 月之暗面最新旗舰,推理能力强
- Kimi K2 Instruct / Thinking — K2 系列另外两个版本
- DeepSeek V4 Pro — 深度求索旗舰,代码和推理都很强
- DeepSeek V4 Flash — V4 的轻量版,速度快
- DeepSeek Coder 6.7B — 代码专用
- Qwen 3.5-397B — 通义千问最大杯,MoE 架构
- Qwen 3.5-122B — 中杯,性价比高
- Qwen 3 Coder 480B — 代码专用,参数量最大
- Qwen 3 Next 80B — 新一代推理模型
- GLM 5 / 5.1 / 4.7 — 智谱全家桶
- MiniMax M2.5 / M2.7 — MiniMax 最新模型
- 01-ai Yi Large — 零一万物
Meta Llama 系列
- Llama 4 Maverick 17B-128E — 最新 MoE 架构
- Llama 3.3 70B — 性价比之王
- Llama 3.2 90B Vision — 多模态,能看图
- Llama 3.1 70B / 8B — 经典款
- CodeLlama 70B — 代码专用
Google Gemma 系列
- Gemma 4 31B — 最新版本
- Gemma 3 27B / 12B / 4B — 三代全家桶
- Gemma 3n E2B / E4B — 超轻量端侧模型
Mistral 系列
- Mistral Large 3 675B — 675B 参数,巨无霸
- Mistral Large 2 Instruct — 上一代旗舰
- Devstral 2 123B — 代码 Agent 专用
- Codestral 22B — 代码生成
- Mixtral 8x22B / 8x7B — MoE 经典
NVIDIA 自家模型
- Nemotron Ultra 253B — NVIDIA 最强推理
- Nemotron Super 49B V1.5 — 性价比款
- Nemotron 3 Super 120B — MoE 架构
- Llama Nemotron 系列 — 基于 Llama 微调
其他
- OpenAI GPT-OSS 120B / 20B — OpenAI 的开源模型
- IBM Granite 系列
- Writer Palmyra 122B
- Step 3.5 Flash(阶跃星辰)
光国产模型就有 30 多个,这个阵容说实话有点猛。
怎么用?
第一步:申请 API Key
打开 https://build.nvidia.com/ ,注册账号,创建 API Key。一分钟搞定。
第二步:调用 API
它用的是 OpenAI 兼容接口,所以你可以直接用任何支持 OpenAI 的工具:
curl https://integrate.api.nvidia.com/v1/chat/completions \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "moonshotai/kimi-k2.6",
"messages": [{"role": "user", "content": "你好"}]
}'
第三步:接入工具
如果你用 Cursor、Claude Code、Hermes Agent 这类工具,直接把 API 地址和 Key 填进去就行。
以 Hermes Agent 为例:
# 设置 API Key
echo 'NVIDIA_API_KEY=你的Key' >> ~/.hermes/.env
修改配置
hermes config set model.default moonshotai/kimi-k2.6
hermes config set model.provider nvidia
hermes config set model.base_url https://integrate.api.nvidia.com/v1
免费有什么限制?
说实话,免费的东西肯定有限制:
- 速率限制:每分钟请求数有上限,具体数字没公布,但正常使用够了
- 并发限制:不能同时发太多请求
- 不能商用:免费额度仅供开发测试
- 稳定性:高峰时段可能排队
但对个人开发者来说,这个额度完全够用了。写代码、做实验、搞个人项目,随便造。
我的使用感受
我实际测了几个模型:
Kimi K2.6:响应速度大概 10-15 秒,推理能力确实强,适合复杂任务。但速度比 DeepSeek 慢不少。
DeepSeek V4 Pro:速度快,质量也不差。日常用这个最顺手。
Qwen 3.5-397B:参数量最大的那个,中文理解很好,但响应也比较慢。
Llama 3.3 70B:速度快,英文场景表现好,中文也还行。
我的建议是:日常用 DeepSeek V4 Flash(快),复杂任务用 Kimi K2.6 或 DeepSeek V4 Pro(准),尝鲜可以试试 Qwen 3.5-397B(大)。
值不值得用?
如果你是:
- 个人开发者:强烈推荐。免费的旗舰模型,不用白不用
- 学生/研究者:做实验、跑 benchmark 的好选择
- 自媒体人:写文章、做内容的 AI 助手
- 想体验最新模型的人:Kimi K2.6、DeepSeek V4 这些平时都要花钱,现在免费
如果你是:
- 企业用户:免费额度不够商用,还是得买正式版
- 需要高并发的场景:速率限制可能不够
- 对延迟敏感的场景:部分模型响应偏慢
总结
英伟达这波操作,本质上是在用免费额度培养开发者生态。对我们普通用户来说,就是白嫖的好机会。
136 个模型,覆盖了国内外主流厂商,全部免费。这种好事不知道能持续多久,趁现在赶紧薅。
申请地址:https://build.nvidia.com/
注册一分钟,白嫖一整年。