语言模型

Qwen3.5-9B:阿里 9B 参数模型干翻 120B 大模型

2026 年 3 月 7 日 12 分钟阅读
Qwen3.5 Logo

2026 年 3 月 2 日,阿里开源了 Qwen3.5 小尺寸模型系列。9B 版本在 GPQA Diamond 拿到 81.7 分。超过 OpenAI 的 GPT-OSS-120B(71.5 分)。13.5 倍参数差距,小模型赢了。

Apache 2.0 协议,代码和权重都能商用。一行 Ollama 命令就能跑,标准笔记本就能部署。

Qwen3.5 小尺寸模型性能对比

图 1: Qwen3.5 小尺寸模型性能对比(来源:GitHub README)

一、Qwen3.5 小尺寸模型系列

2026 年 3 月 2 日,阿里千问团队开源了 4 款 Qwen3.5 小尺寸模型:Qwen3.5-0.8B、2B、4B、9B。

这不是"缩小版"。这一系列采用原生多模态训练,最新的模型架构。

Qwen3.5 中尺寸模型性能

图 2: Qwen3.5 中尺寸模型性能(来源:GitHub README)

各型号定位:

型号 定位 特点 适用场景
0.8B/2B 端侧首选 体积极小,推理极快 移动设备、IoT、实时交互
4B 轻量级 Agent 多模态基座 智能体核心
9B 紧凑尺寸,越级性能 媲美 120B 服务器端,显存受限

0.8B 和 2B 适合移动设备、IoT 边缘设备部署。4B 适合轻量级智能体。9B 适合服务器端部署,性价比极高。

二、9B vs 120B:榜单数据

GPQA Diamond 基准测试数据:

模型 GPQA Diamond 参数量 方案类型
Qwen3.5-9B 81.7 9B 端到端
GPT-OSS-120B 71.5 120B 端到端

9B 比 120B 高出 10.2 分。

VentureBeat 的报道标题很直接:"Alibaba's small, open source Qwen3.5-9B beats OpenAI's gpt-oss-120B and can run on standard laptops"。

"can run on standard laptops"是什么意思?9B 模型,显存占用大约 4-5GB。RTX 3090、A10,甚至高端笔记本的 GPU 都能跑。不需要 A100、H100 这种数据中心级别的显卡。

以前想跑 120B 模型,至少需要 8 张 A100。现在 9B 模型,单卡就能搞定。成本差距是数量级的。

三、技术亮点:为什么小模型能赢?

Qwen3.5 不是"蒸馏"或"剪枝"。有几个技术突破:

1. 统一视觉 - 语言基础

早期融合训练,数万亿多模态 token。Qwen3.5 在推理、编码、agent 能力和多模态理解上都超过了 Qwen3-VL 模型。

Qwen3.5 旗舰模型性能

图 3: Qwen3.5 旗舰模型性能对比(来源:GitHub README)

2. 高效混合架构

Gated Delta Networks 结合稀疏 MoE(Mixture-of-Experts)。高吞吐推理,低延迟。

Qwen3.5-397B-A17B 总参数 397B,每次前向传播只激活 17B。Qwen3.5-9B 没公开 MoE 配置,但继承了同样的架构理念。

3. 可扩展的 RL 泛化

百万级 agent 环境中规模化强化学习。不是针对特定 benchmark 的优化,而是真实世界的适应力。

4. 全球语言覆盖

从 119 种语言扩展到 201 种。词汇表从 150k 扩展到 250k,编码/解码效率提升 10-60%。

四、实战:一行命令部署

部署 Qwen3.5-9B 有多简单?Ollama 一行命令:

ollama run qwen3.5:9b

就这么简单。

用 transformers:

from transformers import Qwen3VLForConditionalGeneration, AutoProcessor

model = Qwen3VLForConditionalGeneration.from_pretrained(
    "Qwen/Qwen3.5-9B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen3.5-9B")

显存占用:

推理速度(单卡 RTX 3090):

对比 120B 模型:

差距很明显。

五、选型指南:0.8B/2B/4B/9B 怎么选?

需求 推荐型号 理由
移动设备部署 0.8B/2B 体积极小,推理极快
IoT 边缘设备 0.8B/2B 低资源消耗
轻量级 Agent 4B 性能与资源平衡
服务器端通用 9B 性价比最高
显存 <4GB 0.8B/2B 最低资源需求
显存 4-8GB 4B/9B 中等资源需求
追求极致性能 9B 接近 120B 的性能

建议:

六、结论:小尺寸模型的时代

Qwen3.5-9B 开源,标志新趋势:小尺寸模型不再是"妥协",而是"选择"。

以前认为,性能=参数。9B 超过 120B 的事实告诉我们:架构优化 > 堆参数。

这对开发者是好事。以前只能云 API 调用,现在可以本地部署。以前担心数据隐私,现在可以完全离线运行。以前成本太高,现在单卡就能搞定。

资源链接