GLM-Image:首个开源工业级
自回归图像生成模型

GLM-Image 结合了 9B 自回归生成器和 7B 扩散解码器,实现卓越的文本渲染和知识密集型生成能力。体验专为高保真图像创建优化的 16B 参数模型的强大力量。

文本渲染 知识密集型 16B 参数 开源

试用 GLM-Image 在线演示

实时体验 AI 驱动的图像生成,卓越的文本渲染能力

如果持续加载失败,请检查您的网络连接

演示暂时不可用

直接访问

如何使用 GLM-Image 演示

文本生成图像

  • • 输入描述图像的文本提示
  • • 选择图像尺寸和质量设置
  • • 生成具有精确文本渲染的高质量图像

高级功能

  • • 卓越的中英文文本渲染
  • • 知识密集型内容生成
  • • 支持复杂指令和细节

GLM-Image 核心功能

GLM-Image 在多个维度上提供卓越性能,从文本渲染到知识密集型生成。

卓越的文本渲染

GLM-Image 在中文文本渲染上达到 0.9788 的准确率(LongText-Bench ZH),英文文本达到 0.9557。非常适合创建海报、信息图表和多语言内容,实现精确的文本集成。

混合架构

结合 9B 自回归生成器和 7B 扩散解码器实现渐进式生成。模型首先使用低分辨率令牌建立布局,然后添加高分辨率细节。

知识密集型生成

GLM-Image 擅长复杂指令遵循和事实准确性。非常适合教育内容、技术图表和需要复杂信息表示的创意工作。

高分辨率输出

生成 1024px 到 2048px 的原生分辨率图像。GLM-Image 为专业应用生成具有卓越细节和清晰度的印刷质量图像。

图像编辑与风格迁移

利用块因果注意力机制实现精确的图像编辑功能。通过风格迁移转换照片、增强图像并创建艺术变体,同时保留关键细节。

身份保持

在多次生成中保持多主体一致性。非常适合角色设计、品牌一致性以及需要在多个图像中识别主体的项目。

GLM-Image 性能展示

GLM-Image 在行业基准测试中表现出色,尤其在文本渲染准确性方面表现卓越。

基准测试对比

基准测试 GLM-Image 竞品平均 提升
CVTG-2K Word Accuracy 0.9116 0.7850 +16.1%
LongText-Bench EN 0.9557 0.8920 +7.1%
LongText-Bench ZH 0.9788 0.8650 +13.2%
OneIG-Bench 0.528 0.512 +3.1%
DPG-Bench 84.78 82.45 +2.8%
TIIF-Bench (Short) 81.01 78.30 +3.5%

* 竞品平均值基于可比较的开源模型。GLM-Image 在文本渲染任务中始终表现优异。

📝

文本渲染

创建多语言精确文本集成的图像,非常适合海报和营销材料。

🎨

风格迁移

使用艺术风格转换图像,同时保持主体身份和关键视觉元素。

📚

教育内容

为教育材料生成知识密集型视觉内容,准确表示信息。

GLM-Image 技术创新

GLM-Image 融合了前沿的架构创新,实现卓越的图像生成性能。

🔷

语义-VQ 标记化

16× 压缩比,保留语义信息。相比传统 VQVAE 方法具有更优的收敛特性。

📊

渐进式生成

分层令牌生成:首先生成低分辨率布局(约 256 个令牌),然后添加高分辨率细节(1K-4K 个令牌)。

✍️

Glyph-byT5 编码器

字符级编码实现卓越的文本渲染准确性,特别适合中文字符和复杂文字系统。

🎯

块因果注意力

在图像编辑过程中保持高频细节,同时减少计算开销以实现高效处理。

最新见解与指南

深入探索关于 GLM-Image 功能、技术和最佳实践的文章。

2026年2月23日 18 分钟阅读

ACE-Step 1.5:新一代开源多模态大模型突破

ACE-Step 1.5 完整指南:开源多模态模型,320亿参数,Qwen2.5-32B 主干网络,ViT-H/14 视觉编码器。

阅读更多
2026年2月22日 25 分钟阅读

KANI-TTS-2:下一代开源文本转语音模型

KANI-TTS-2 完整指南:开源文本转语音模型。了解 12 种语言支持、60+ 音色、语音克隆、硬件要求和实际应用场景。

阅读更多
2026年2月21日 20 分钟阅读

MOSS-TTS:下一代开源文本转语音模型

MOSS-TTS 完整指南:开源文本转语音模型。了解多语言支持、语音克隆、硬件要求和实际应用场景。

阅读更多
2026年2月20日 20 分钟阅读

FireRed-Image-Edit-1.0 完整指南:高保真图像编辑模型

FireRed-Image-Edit-1.0 完整指南:火红团队推出的专用图像编辑模型。了解高保真编辑、图像修复、增强和实际应用。

阅读更多
2026年2月19日 12 分钟阅读

GLM-5:智谱AI最新开源语言模型系列

GLM-5:90亿参数支持128K上下文,包含GLM-5-Chat、GLM-5-Plus和GLM-5-Flash等多种变体,适用于不同使用场景。

阅读更多
2026年2月19日 35 分钟阅读

Qwen3.5-397B-A17B:目前最强大的开源权重语言模型

Qwen3.5-397B-A17B:397B 总参数量,17B 每次前向传播激活。业界领先的 MoE 架构、推理和编码能力。

阅读更多
2026年1月23日 25 分钟阅读

Qwen3-TTS:2026年开源文本转语音革命

探索 Qwen3-TTS,基于 500 万小时语音数据训练,支持 10 种语言、49 种音色和 3 秒语音克隆功能。

阅读更多
2026年1月23日 20 分钟阅读

微软 VibeVoice-ASR:革命性语音识别模型

探索微软的 VibeVoice-ASR,可一次性处理 60 分钟音频,集成说话人分离和时间戳功能。

阅读更多
2026年1月20日 18 分钟阅读

AgentCPM-Explore:首个开源4B参数智能体模型

探索 AgentCPM-Explore,首个在8个基准测试中排名的开源4B参数智能体模型,具备深度探索能力。

阅读更多
2026年1月15日 15 分钟阅读

FLUX 2 Klein:最快的 AI 图像生成模型

探索 FLUX 2 Klein 的 9B 和 4B 参数模型,亚秒级推理时间,仅需 13GB 显存。消费级硬件上的专业级 AI 图像生成。

阅读更多
2026年1月30日 20 分钟阅读

Qwen3-ASR-1.7B:革命性多语言语音识别模型

阿里巴巴 Qwen3-ASR-1.7B 完整指南,支持 52 种语言,最先进的准确度,高效推理用于生产部署。

阅读更多

快速开始使用 GLM-Image

几分钟内开始使用 GLM-Image。安装所需的软件包并开始生成高质量图像。

安装

pip install git+https://github.com/huggingface/transformers.git
pip install git+https://github.com/huggingface/diffusers.git

系统要求

GPU

80GB+ 显存或多 GPU 配置

Python

版本 3.8 或更高

基本使用

import torch
from diffusers.pipelines.glm_image import GlmImagePipeline

pipe = GlmImagePipeline.from_pretrained(
    "zai-org/GLM-Image",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "A beautiful landscape with mountains and a lake"
image = pipe(
    prompt=prompt,
    height=32 * 32,
    width=36 * 32,
    num_inference_steps=50,
    guidance_scale=1.5
).images[0]

image.save("output.png")

常见问题

关于 GLM-Image 及其功能的常见问题。

GLM-Image 是首个开源工业级离散自回归图像生成模型,拥有 16B 参数(9B 自回归 + 7B 扩散解码器)。它在文本渲染(尤其是中文字符)和知识密集型内容生成方面表现出色。

GLM-Image 使用 Glyph-byT5 文本编码器,为图像中的文本渲染提供卓越的准确性。它在中文文本上达到 0.9788 的准确率(LongText-Bench ZH),在英文文本上达到 0.9557(LongText-Bench EN),超越其他模型。

GLM-Image 需要配备 80GB+ 显存的 GPU 或多 GPU 配置。它还需要 Python 3.8 或更高版本以及最新稳定版本的 PyTorch。该模型的大参数量(16B)需要大量的计算资源。

GLM-Image 结合了 9B 自回归生成器和 7B 扩散解码器。自回归组件首先生成低分辨率令牌(约 256 个)以建立布局,然后扩散解码器添加高分辨率细节(1K-4K 个令牌)以生成最终图像。

可以!GLM-Image 采用 Apache 2.0 许可证发布,允许商业使用。您可以在商业项目中使用 GLM-Image,修改它并分发它,只要您遵守许可证条款。

知识密集型生成是指 GLM-Image 能够以事实准确性遵循复杂指令的能力。这使其非常适合创建教育内容、技术图表以及需要准确表示复杂信息的图像。

GLM-Image 在文本渲染任务中超越同类模型,在 CVTG-2K 词准确率上达到 0.9116(比竞品提升 16.1%)。它在中文文本渲染方面也表现出色,准确率达到 0.9788,使其成为多语言内容创作的最佳选择。

可以,GLM-Image 可以针对特定领域或风格进行微调。该模型的架构支持迁移学习,允许您根据特定需求进行调整,同时保持其在文本渲染和知识密集型生成方面的核心能力。