2026 年 3 月 2 日,阿里开源了 Qwen3.5 小尺寸模型系列。9B 版本在 GPQA Diamond 拿到 81.7 分。超过 OpenAI 的 GPT-OSS-120B(71.5 分)。13.5 倍参数差距,小模型赢了。
Apache 2.0 协议,代码和权重都能商用。一行 Ollama 命令就能跑,标准笔记本就能部署。
图 1: Qwen3.5 小尺寸模型性能对比(来源:GitHub README)
一、Qwen3.5 小尺寸模型系列
2026 年 3 月 2 日,阿里千问团队开源了 4 款 Qwen3.5 小尺寸模型:Qwen3.5-0.8B、2B、4B、9B。
这不是"缩小版"。这一系列采用原生多模态训练,最新的模型架构。
图 2: Qwen3.5 中尺寸模型性能(来源:GitHub README)
各型号定位:
| 型号 | 定位 | 特点 | 适用场景 |
|---|---|---|---|
| 0.8B/2B | 端侧首选 | 体积极小,推理极快 | 移动设备、IoT、实时交互 |
| 4B | 轻量级 Agent | 多模态基座 | 智能体核心 |
| 9B | 紧凑尺寸,越级性能 | 媲美 120B | 服务器端,显存受限 |
0.8B 和 2B 适合移动设备、IoT 边缘设备部署。4B 适合轻量级智能体。9B 适合服务器端部署,性价比极高。
二、9B vs 120B:榜单数据
GPQA Diamond 基准测试数据:
| 模型 | GPQA Diamond | 参数量 | 方案类型 |
|---|---|---|---|
| Qwen3.5-9B | 81.7 | 9B | 端到端 |
| GPT-OSS-120B | 71.5 | 120B | 端到端 |
9B 比 120B 高出 10.2 分。
VentureBeat 的报道标题很直接:"Alibaba's small, open source Qwen3.5-9B beats OpenAI's gpt-oss-120B and can run on standard laptops"。
"can run on standard laptops"是什么意思?9B 模型,显存占用大约 4-5GB。RTX 3090、A10,甚至高端笔记本的 GPU 都能跑。不需要 A100、H100 这种数据中心级别的显卡。
以前想跑 120B 模型,至少需要 8 张 A100。现在 9B 模型,单卡就能搞定。成本差距是数量级的。
三、技术亮点:为什么小模型能赢?
Qwen3.5 不是"蒸馏"或"剪枝"。有几个技术突破:
1. 统一视觉 - 语言基础
早期融合训练,数万亿多模态 token。Qwen3.5 在推理、编码、agent 能力和多模态理解上都超过了 Qwen3-VL 模型。
图 3: Qwen3.5 旗舰模型性能对比(来源:GitHub README)
2. 高效混合架构
Gated Delta Networks 结合稀疏 MoE(Mixture-of-Experts)。高吞吐推理,低延迟。
Qwen3.5-397B-A17B 总参数 397B,每次前向传播只激活 17B。Qwen3.5-9B 没公开 MoE 配置,但继承了同样的架构理念。
3. 可扩展的 RL 泛化
百万级 agent 环境中规模化强化学习。不是针对特定 benchmark 的优化,而是真实世界的适应力。
4. 全球语言覆盖
从 119 种语言扩展到 201 种。词汇表从 150k 扩展到 250k,编码/解码效率提升 10-60%。
四、实战:一行命令部署
部署 Qwen3.5-9B 有多简单?Ollama 一行命令:
ollama run qwen3.5:9b
就这么简单。
用 transformers:
from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
model = Qwen3VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen3.5-9B",
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen3.5-9B")
显存占用:
- bfloat16 精度:约 4-5GB
- int8 量化:约 2-3GB
- int4 量化:约 1-2GB
推理速度(单卡 RTX 3090):
- 生成速度:约 30-50 tokens/秒
- 首 token 延迟:<100ms
对比 120B 模型:
- 显存占用:约 240GB(bfloat16)
- 需要:8 张 A100(每张 80GB)
- 推理速度:约 5-10 tokens/秒
差距很明显。
五、选型指南:0.8B/2B/4B/9B 怎么选?
| 需求 | 推荐型号 | 理由 |
|---|---|---|
| 移动设备部署 | 0.8B/2B | 体积极小,推理极快 |
| IoT 边缘设备 | 0.8B/2B | 低资源消耗 |
| 轻量级 Agent | 4B | 性能与资源平衡 |
| 服务器端通用 | 9B | 性价比最高 |
| 显存 <4GB | 0.8B/2B | 最低资源需求 |
| 显存 4-8GB | 4B/9B | 中等资源需求 |
| 追求极致性能 | 9B | 接近 120B 的性能 |
建议:
- 显存充足(≥8GB),直接上 9B
- 移动端开发,选 2B
- Agent 开发,4B 是甜点区
六、结论:小尺寸模型的时代
Qwen3.5-9B 开源,标志新趋势:小尺寸模型不再是"妥协",而是"选择"。
以前认为,性能=参数。9B 超过 120B 的事实告诉我们:架构优化 > 堆参数。
这对开发者是好事。以前只能云 API 调用,现在可以本地部署。以前担心数据隐私,现在可以完全离线运行。以前成本太高,现在单卡就能搞定。
资源链接
- GitHub: github.com/QwenLM/Qwen3.5
- ModelScope: modelscope.cn/collections/Qwen/Qwen35
- HuggingFace: huggingface.co/collections/Qwen/qwen35
- 官方博客: qwen.ai/blog
- Qwen Chat: chat.qwen.ai