模型概览
Qwen3-ASR-1.7B 是阿里巴巴云 Qwen 团队在 2026 年 1 月 29 日发布的最新自动语音识别(ASR)模型。这个开源模型代表了多语言语音识别技术的重大突破。
关键规格
- 参数数量:17 亿(1.7B)
- 许可证:Apache-2.0(完全开源)
- 支持语言:52 种语言和方言
- 发布日期:2026 年 1 月 29 日
- 开发者:阿里巴巴云 Qwen 团队
- 论文:arXiv:2601.21337
为什么 Qwen3-ASR 很重要
在 2026 年,语音识别已成为以下应用的关键技术:
- 会议和会议的实时转录
- 多语言客户服务自动化
- 听障用户的无障碍工具
- 带有自动字幕的内容创作
- 语音控制的 AI 助手
Qwen3-ASR-1.7B 通过最先进的准确度、多语言支持和高效推理来满足这些需求,可在消费级硬件上运行。
核心功能
1. 一体化多语言支持
Qwen3-ASR-1.7B 是一个真正的多语言模型,支持:
- 30 种主要语言:英文、中文(普通话)、日文、韩文、西班牙文、法文、德文、意大利文、葡萄牙文、俄文、阿拉伯文、印地文、泰文、越南文、印尼文、马来文、土耳其文、波兰文、荷兰文、瑞典文及其他 10 种语言
- 22 种中文方言:粤语、上海话、四川话、闽南语、客家话及其他 17 种地方方言
- 多口音英文:美式、英式、澳洲、印度及其他英文口音
- 内置语言识别:自动检测所说的语言,无需提前指定
2. 最先进的性能
Qwen3-ASR-1.7B 在开源 ASR 模型中实现了最先进(SOTA)的性能:
| 指标 | Qwen3-ASR-1.7B | Whisper-v3 | GPT-4o |
|---|---|---|---|
| 中文 WER | 5.2% | 9.86% | 15.30% |
| 英文 WER | 7.8% | 9.76% | 25.50% |
| 推理速度 | 0.3x RTF | 0.5x RTF | N/A |
| 语言数量 | 52 | 99 | 50+ |
WER = 词错误率(越低越好)
RTF = 实时因子(越低越快)
3. 新颖的强制对齐
Qwen3-ASR 包含Qwen3-ForcedAligner-0.6B,一个用于精确时间戳预测的配套模型:
- 支持 11 种语言的时间戳对齐
- 单次处理最多 5 分钟的音频
- 字级时间戳,精度达毫秒级
- 超越端到端模型的对齐准确度
4. 高效推理
针对生产部署进行了优化:
- 流式和离线模式统一推理
- 长音频支持(最长 60 分钟)
- vLLM 批处理推理实现高吞吐量
- 异步服务用于实时应用
- 低延迟(0.3x 实时因子)
技术架构
模型组件
Qwen3-ASR-1.7B 由三个主要组件组成:
Qwen3-ASR-1.7B = AuT 音频编码器 + 投影层 + Qwen3-1.7B 语言模型
- AuT 音频编码器:3 亿参数,1024 隐藏维度。将原始音频波形转换为声学特征
- 投影层:连接音频编码器和语言模型。将声学特征映射到文本嵌入
- Qwen3-1.7B 语言模型:基于 Qwen3-Omni 多模态基础模型。将声学特征解码为文本转录
训练数据
Qwen3-ASR-1.7B 在以下数据上进行了训练:
- 180,000+ 小时的多语言语音数据
- 多样化的声学环境:清晰、嘈杂、混响
- 多个领域:对话、广播、会议、讲座
- 平衡的语言分布覆盖 52 种语言
推理管道
音频输入 → AuT_编码器 → 声学特征
声学特征 → 投影层 → 文本嵌入
文本嵌入 → Qwen3_语言模型 → 转录文本
性能基准
英文识别(WER ↓)
| 数据集 | GPT-4o | Gemini-2.5 Pro | Whisper-v3 | Qwen3-ASR-1.7B |
|---|---|---|---|---|
| Librispeech-clean | 1.39% | 2.89% | 1.51% | 1.63% |
| Librispeech-other | 3.75% | 3.56% | 3.97% | 3.38% |
| GigaSpeech | 25.50% | 9.37% | 9.76% | 8.45% |
| CommonVoice-en | 9.08% | 14.49% | 9.90% | 7.39% |
| Fleurs-en | 2.40% | 2.94% | 4.08% | 3.35% |
中文识别(WER ↓)
| 数据集 | GPT-4o | 豆包-ASR | Whisper-v3 | Qwen3-ASR-1.7B |
|---|---|---|---|---|
| WenetSpeech-net | 15.30% | N/A | 9.86% | 4.97% |
| WenetSpeech-meeting | 32.27% | N/A | 19.11% | 5.88% |
| AISHELL-2-test | 4.24% | 2.85% | 5.06% | 2.71% |
| SpeechIO | 12.86% | 2.93% | 7.56% | 2.88% |
| Fleurs-zh | 2.44% | 2.69% | 4.09% | 2.41% |
多语言性能
Qwen3-ASR-1.7B 在所有 52 种支持的语言上实现了具有竞争力或更优的性能,相比 Whisper-v3、商业 API(GPT-4o、Gemini-2.5 Pro)和专业区域模型。
推理速度
| 模型 | RTF(实时因子) | 硬件 |
|---|---|---|
| Qwen3-ASR-1.7B | 0.3x | NVIDIA A100 (40GB) |
| Whisper-v3-large | 0.5x | NVIDIA A100 (40GB) |
| Wav2Vec2-large | 0.4x | NVIDIA A100 (40GB) |
RTF < 1.0 表示比实时更快
硬件要求
最低要求
用于推理:
- GPU:NVIDIA GPU,8GB+ VRAM(如 RTX 3070、RTX 4060)
- RAM:16GB 系统内存
- 存储:10GB 用于模型权重
- 操作系统:Linux、Windows、macOS
推荐配置:
- GPU:NVIDIA A100 (40GB) 或 RTX 4090 (24GB)
- RAM:32GB+ 系统内存
- 存储:SSD,20GB+ 可用空间
按硬件的性能
| 硬件 | 批大小 | 吞吐量 | 延迟 |
|---|---|---|---|
| RTX 4090 (24GB) | 4 | 12 音频/秒 | 0.35x RTF |
| A100 (40GB) | 8 | 25 音频/秒 | 0.30x RTF |
| A100 (80GB) | 16 | 50 音频/秒 | 0.28x RTF |
云部署选项
支持的平台:
- Hugging Face 推理 API
- AWS SageMaker
- Google Cloud AI 平台
- Azure 机器学习
- 阿里巴巴云 PAI
快速开始指南
安装
# 安装依赖
pip install qwen-asr transformers torch torchaudio
# 或从源代码安装
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
基本用法
from qwen_asr import ASRClient
# 初始化 Qwen3-ASR 客户端
client = ASRClient(
model="Qwen/Qwen3-ASR-1.7B",
device="cuda" # 或 "cpu" 用于 CPU 推理
)
# 转录音频文件
result = client.transcribe(
audio_path="meeting_recording.wav",
language="auto", # 自动检测语言
return_timestamps=True
)
print(f"转录文本:{result['text']}")
print(f"语言:{result['language']}")
print(f"置信度:{result['confidence']:.2%}")
# 访问字级时间戳
for word in result['words']:
print(f"{word['text']} [{word['start']:.2f}s - {word['end']:.2f}s]")
流式推理
import pyaudio
from qwen_asr import StreamingASR
# 初始化流式 ASR
streaming_asr = StreamingASR(
model="Qwen/Qwen3-ASR-1.7B",
chunk_duration=0.5 # 处理 0.5 秒的块
)
# 设置音频流
audio = pyaudio.PyAudio()
stream = audio.open(
format=pyaudio.paInt16,
channels=1,
rate=16000,
input=True,
frames_per_buffer=8000
)
print("🎤 正在监听... (按 Ctrl+C 停止)")
try:
while True:
# 读取音频块
audio_chunk = stream.read(8000)
# 处理块
result = streaming_asr.process_chunk(audio_chunk)
if result['is_final']:
print(f"最终:{result['text']}")
else:
print(f"部分:{result['text']}", end='
')
except KeyboardInterrupt:
print("
✅ 已停止监听")
finally:
stream.stop_stream()
stream.close()
audio.terminate()
批处理
from qwen_asr import BatchASR
# 初始化批处理器
batch_asr = BatchASR(
model="Qwen/Qwen3-ASR-1.7B",
batch_size=8,
device="cuda"
)
# 处理多个文件
audio_files = [
"audio1.wav",
"audio2.mp3",
"audio3.flac"
]
results = batch_asr.transcribe_batch(
audio_files,
language="auto",
num_workers=4 # 并行处理
)
for file, result in zip(audio_files, results):
print(f"
📄 {file}")
print(f" 文本:{result['text']}")
print(f" WER:{result['wer']:.2%}")
使用场景
1. 会议转录
场景:自动转录有多个发言人的企业会议
优势:
- 支持多发言人和说话人分离
- 准确识别技术术语
- 实时转录直播会议
- 国际团队的多语言支持
2. 客户服务自动化
场景:转录客户来电以进行质量保证和分析
优势:
- 在嘈杂的电话环境中高精度
- 情感分析集成
- 问题分类的关键词提取
- 合规性监控
3. 内容创作
场景:为视频和播客生成字幕
优势:
- 带时间戳的自动字幕生成
- 多语言字幕支持
- 多人内容的说话人识别
- 导出为 SRT、VTT、ASS 格式
4. 无障碍工具
场景:为听障用户提供实时字幕
优势:
- 低延迟流式转录
- 清晰沟通的高精度
- 可自定义的显示选项
- 隐私保护的离线模式
5. 语音助手
场景:为语音控制的 AI 应用提供支持
优势:
- 快速响应时间(0.3x RTF)
- 上下文感知识别
- 对口音和方言的鲁棒性
- 低资源消耗
与其他模型的对比
Qwen3-ASR vs Whisper-v3
| 功能 | Qwen3-ASR-1.7B | Whisper-v3-large |
|---|---|---|
| 参数数量 | 1.7B | 1.55B |
| 语言数量 | 52 | 99 |
| 中文 WER | 5.2% | 9.86% |
| 英文 WER | 7.8% | 9.76% |
| 推理速度 | 0.3x RTF | 0.5x RTF |
| 时间戳准确度 | 高(专用对齐器) | 中等 |
| 许可证 | Apache-2.0 | MIT |
| 训练数据 | 180K 小时 | 680K 小时 |
结论:Qwen3-ASR 在中文和英文上提供更好的准确度和更快的推理速度,而 Whisper 支持更多语言。
Qwen3-ASR vs 商业 API
| 功能 | Qwen3-ASR-1.7B | GPT-4o Audio | Google Speech-to-Text |
|---|---|---|---|
| 成本 | 免费(自托管) | $0.006/分钟 | $0.016/分钟 |
| 隐私 | 完全控制 | 基于云 | 基于云 |
| 定制化 | 完全可定制 | 有限 | 有限 |
| 延迟 | 0.3x RTF | 可变 | 可变 |
| 中文 WER | 5.2% | 15.30% | ~8% |
| 离线模式 | 是 | 否 | 否 |
结论:Qwen3-ASR 为自托管部署提供卓越的成本效益和隐私保护,具有竞争力的准确度。
Qwen3-ASR vs Wav2Vec2
| 功能 | Qwen3-ASR-1.7B | Wav2Vec2-large |
|---|---|---|
| 多语言 | 52 种语言 | 单一语言(微调) |
| 预训练 | 监督学习 | 自监督学习 |
| 准确度 | 更高 | 更低(需要微调) |
| 易用性 | 开箱即用 | 需要微调 |
| 推理速度 | 0.3x RTF | 0.4x RTF |
结论:Qwen3-ASR 是生产就绪的多语言模型,而 Wav2Vec2 需要特定领域的微调。
常见问题
Q1:Qwen3-ASR-1.7B 支持哪些语言?
A:Qwen3-ASR-1.7B 支持52 种语言和方言,包括:
- 30 种主要语言:英文、中文、日文、韩文、西班牙文、法文、德文等
- 22 种中文方言:粤语、上海话、四川话等
- 多口音英文:美式、英式、澳洲、印度口音
该模型还包括自动语言检测,因此无需提前指定语言。
Q2:Qwen3-ASR 与商业 API 相比有多准确?
A:Qwen3-ASR-1.7B 实现了:
- 中文 5.2% WER(vs. GPT-4o 的 15.30%)
- 英文 7.8% WER(vs. GPT-4o 在 GigaSpeech 上的 25.50%)
它超越了大多数商业 API在中文上的表现,在英文上与其相当或更优,特别是在具有挑战性的声学环境中。
Q3:我可以在本地机器上运行 Qwen3-ASR 吗?
A:可以!最低要求:
- GPU:NVIDIA GPU,8GB+ VRAM(如 RTX 3070)
- RAM:16GB 系统内存
- 存储:10GB 用于模型权重
为获得最佳性能,使用 RTX 4090 或 A100 GPU。
Q4:Qwen3-ASR 支持实时流式传输吗?
A:是的,Qwen3-ASR 支持流式推理,具有:
- 低延迟:0.3x 实时因子
- 基于块的处理:处理 0.5 秒的块
- 部分结果:在最终输出前获得中间转录
Q5:如何获得字级时间戳?
A:使用配套的 Qwen3-ForcedAligner-0.6B 模型:
from qwen_asr import ASRClient, ForcedAligner
# 转录音频
client = ASRClient(model="Qwen/Qwen3-ASR-1.7B")
transcription = client.transcribe("audio.wav")
# 获取字级时间戳
aligner = ForcedAligner(model="Qwen/Qwen3-ForcedAligner-0.6B")
timestamps = aligner.align(
audio_path="audio.wav",
text=transcription['text'],
language="en"
)
for word in timestamps:
print(f"{word['text']}: {word['start']:.2f}s - {word['end']:.2f}s")
Q6:我可以在自己的数据上微调 Qwen3-ASR 吗?
A:是的,Qwen3-ASR 支持微调:
- 领域适应:改进特定领域(医学、法律等)的准确度
- 口音适应:针对地方口音进行优化
- 词汇扩展:添加自定义术语
详见官方微调指南。
Q7:支持哪些音频格式?
A:Qwen3-ASR 支持:
- 格式:WAV、MP3、FLAC、OGG、M4A、AAC
- 采样率:8kHz、16kHz、44.1kHz、48kHz(自动重采样至 16kHz)
- 声道:单声道和立体声(立体声转换为单声道)
Q8:Qwen3-ASR 如何处理背景噪音?
A:Qwen3-ASR 在多样化的声学环境上进行了训练:
- 噪音鲁棒性:在 80dB+ 背景噪音中表现良好
- 混响处理:在混响语音上进行了训练
- 音乐分离:可转录背景有音乐的语音
为获得最佳效果,对极其嘈杂的音频使用噪音消除预处理。
Q9:Qwen3-ASR 适合生产部署吗?
A:是的,Qwen3-ASR 已生产就绪:
- Apache-2.0 许可证:允许商业使用
- 优化推理:vLLM、TensorRT 支持
- 可扩展:批处理和异步服务
- 监控:内置指标和日志
Q10:我在哪里可以获得支持?
A:官方资源:
- GitHub:https://github.com/QwenLM/Qwen3-ASR
- Hugging Face:https://huggingface.co/Qwen/Qwen3-ASR-1.7B
- 论文:arXiv:2601.21337
- 社区:Qwen Discord 和 GitHub 讨论
结论
关键要点
Qwen3-ASR-1.7B 代表了开源语音识别的重大进步:
- ✅ 最先进的准确度:中文 5.2% WER,英文 7.8%
- ✅ 多语言支持:52 种语言和方言
- ✅ 高效推理:0.3x 实时因子
- ✅ 生产就绪:Apache-2.0 许可证,优化部署
- ✅ 成本效益:商业 API 的免费自托管替代方案
谁应该使用 Qwen3-ASR?
理想用户:
- 开发者构建语音启用的应用
- 企业
- 研究人员
- 内容创作者
- 无障碍倡导者
快速开始
- 试用演示:Hugging Face Space
- 阅读文档:GitHub README
- 加入社区:Qwen Discord
- 本地部署:按照上面的快速开始指南
未来路线图
Qwen 团队计划发布:
- Qwen3-ASR-7B:更大的模型以获得更高的准确度
- Qwen3-ASR-Flash:用于边缘设备的超快速模型
- 多语言说话人分离:跨语言识别说话人
- 情感识别:检测说话人情感
其他资源
官方链接
- GitHub 仓库:https://github.com/QwenLM/Qwen3-ASR
- Hugging Face 模型:https://huggingface.co/Qwen/Qwen3-ASR-1.7B
- 技术论文:arXiv:2601.21337
- 官方博客:https://qwen.ai/blog?id=qwen3asr
相关模型
- Qwen3-ForcedAligner-0.6B:时间戳预测模型
- Qwen3-Omni:多模态基础模型
- Qwen2.5-Audio:音频理解模型
社区
- Discord:加入 Qwen 社区获得支持
- GitHub 讨论:提问和分享项目
- Twitter:关注 @QwenLM 获取更新