Qwen3.5-9B：阿里 9B 参数模型干翻 120B 大模型

2026 年 3 月 2 日，阿里开源了 Qwen3.5 小尺寸模型系列。9B 版本在 GPQA Diamond 拿到 81.7 分。超过 OpenAI 的 GPT-OSS-120B（71.5 分）。13.5 倍参数差距，小模型赢了。

Apache 2.0 协议，代码和权重都能商用。一行 Ollama 命令就能跑，标准笔记本就能部署。

图 1: Qwen3.5 小尺寸模型性能对比（来源：GitHub README）

一、Qwen3.5 小尺寸模型系列

2026 年 3 月 2 日，阿里千问团队开源了 4 款 Qwen3.5 小尺寸模型：Qwen3.5-0.8B、2B、4B、9B。

这不是"缩小版"。这一系列采用原生多模态训练，最新的模型架构。

图 2: Qwen3.5 中尺寸模型性能（来源：GitHub README）

各型号定位：

型号	定位	特点	适用场景
0.8B/2B	端侧首选	体积极小，推理极快	移动设备、IoT、实时交互
4B	轻量级 Agent	多模态基座	智能体核心
9B	紧凑尺寸，越级性能	媲美 120B	服务器端，显存受限

0.8B 和 2B 适合移动设备、IoT 边缘设备部署。4B 适合轻量级智能体。9B 适合服务器端部署，性价比极高。

二、9B vs 120B：榜单数据

GPQA Diamond 基准测试数据：

模型	GPQA Diamond	参数量	方案类型
Qwen3.5-9B	81.7	9B	端到端
GPT-OSS-120B	71.5	120B	端到端

9B 比 120B 高出 10.2 分。

VentureBeat 的报道标题很直接："Alibaba's small, open source Qwen3.5-9B beats OpenAI's gpt-oss-120B and can run on standard laptops"。

"can run on standard laptops"是什么意思？9B 模型，显存占用大约 4-5GB。RTX 3090、A10，甚至高端笔记本的 GPU 都能跑。不需要 A100、H100 这种数据中心级别的显卡。

以前想跑 120B 模型，至少需要 8 张 A100。现在 9B 模型，单卡就能搞定。成本差距是数量级的。

三、技术亮点：为什么小模型能赢？

Qwen3.5 不是"蒸馏"或"剪枝"。有几个技术突破：

1. 统一视觉 - 语言基础

早期融合训练，数万亿多模态 token。Qwen3.5 在推理、编码、agent 能力和多模态理解上都超过了 Qwen3-VL 模型。

图 3: Qwen3.5 旗舰模型性能对比（来源：GitHub README）

2. 高效混合架构

Gated Delta Networks 结合稀疏 MoE（Mixture-of-Experts）。高吞吐推理，低延迟。

Qwen3.5-397B-A17B 总参数 397B，每次前向传播只激活 17B。Qwen3.5-9B 没公开 MoE 配置，但继承了同样的架构理念。

3. 可扩展的 RL 泛化

百万级 agent 环境中规模化强化学习。不是针对特定 benchmark 的优化，而是真实世界的适应力。

4. 全球语言覆盖

从 119 种语言扩展到 201 种。词汇表从 150k 扩展到 250k，编码/解码效率提升 10-60%。

四、实战：一行命令部署

部署 Qwen3.5-9B 有多简单？Ollama 一行命令：

ollama run qwen3.5:9b

就这么简单。

用 transformers：

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor

model = Qwen3VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen3.5-9B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen3.5-9B")

显存占用：

bfloat16 精度：约 4-5GB
int8 量化：约 2-3GB
int4 量化：约 1-2GB

推理速度（单卡 RTX 3090）：

生成速度：约 30-50 tokens/秒
首 token 延迟：<100ms

对比 120B 模型：

显存占用：约 240GB（bfloat16）
需要：8 张 A100（每张 80GB）
推理速度：约 5-10 tokens/秒

差距很明显。

五、选型指南：0.8B/2B/4B/9B 怎么选？

需求	推荐型号	理由
移动设备部署	0.8B/2B	体积极小，推理极快
IoT 边缘设备	0.8B/2B	低资源消耗
轻量级 Agent	4B	性能与资源平衡
服务器端通用	9B	性价比最高
显存 <4GB	0.8B/2B	最低资源需求
显存 4-8GB	4B/9B	中等资源需求
追求极致性能	9B	接近 120B 的性能

建议：

显存充足（≥8GB），直接上 9B
移动端开发，选 2B
Agent 开发，4B 是甜点区

六、结论：小尺寸模型的时代

Qwen3.5-9B 开源，标志新趋势：小尺寸模型不再是"妥协"，而是"选择"。

以前认为，性能=参数。9B 超过 120B 的事实告诉我们：架构优化 > 堆参数。

这对开发者是好事。以前只能云 API 调用，现在可以本地部署。以前担心数据隐私，现在可以完全离线运行。以前成本太高，现在单卡就能搞定。

资源链接

GitHub: github.com/QwenLM/Qwen3.5
ModelScope: modelscope.cn/collections/Qwen/Qwen35
HuggingFace: huggingface.co/collections/Qwen/qwen35
官方博客: qwen.ai/blog
Qwen Chat: chat.qwen.ai