GLM-Image:首个开源工业级
自回归图像生成模型

GLM-Image 结合了 9B 自回归生成器和 7B 扩散解码器,实现卓越的文本渲染和知识密集型生成能力。体验专为高保真图像创建优化的 16B 参数模型的强大力量。

文本渲染 知识密集型 16B 参数 开源

试用 GLM-Image 演示

通过我们的免费在线演示体验 GLM-Image 的强大功能。生成具有卓越文本渲染和知识密集型内容的高质量图像。

GLM-Image 核心功能

GLM-Image 在多个维度上提供卓越性能,从文本渲染到知识密集型生成。

卓越的文本渲染

GLM-Image 在中文文本渲染上达到 0.9788 的准确率(LongText-Bench ZH),英文文本达到 0.9557。非常适合创建海报、信息图表和多语言内容,实现精确的文本集成。

混合架构

结合 9B 自回归生成器和 7B 扩散解码器实现渐进式生成。模型首先使用低分辨率令牌建立布局,然后添加高分辨率细节。

知识密集型生成

GLM-Image 擅长复杂指令遵循和事实准确性。非常适合教育内容、技术图表和需要复杂信息表示的创意工作。

高分辨率输出

生成 1024px 到 2048px 的原生分辨率图像。GLM-Image 为专业应用生成具有卓越细节和清晰度的印刷质量图像。

图像编辑与风格迁移

利用块因果注意力机制实现精确的图像编辑功能。通过风格迁移转换照片、增强图像并创建艺术变体,同时保留关键细节。

身份保持

在多次生成中保持多主体一致性。非常适合角色设计、品牌一致性以及需要在多个图像中识别主体的项目。

GLM-Image 性能展示

GLM-Image 在行业基准测试中表现出色,尤其在文本渲染准确性方面表现卓越。

基准测试对比

基准测试 GLM-Image 竞品平均 提升
CVTG-2K Word Accuracy 0.9116 0.7850 +16.1%
LongText-Bench EN 0.9557 0.8920 +7.1%
LongText-Bench ZH 0.9788 0.8650 +13.2%
OneIG-Bench 0.528 0.512 +3.1%
DPG-Bench 84.78 82.45 +2.8%
TIIF-Bench (Short) 81.01 78.30 +3.5%

* 竞品平均值基于可比较的开源模型。GLM-Image 在文本渲染任务中始终表现优异。

📝

文本渲染

创建多语言精确文本集成的图像,非常适合海报和营销材料。

🎨

风格迁移

使用艺术风格转换图像,同时保持主体身份和关键视觉元素。

📚

教育内容

为教育材料生成知识密集型视觉内容,准确表示信息。

GLM-Image 技术创新

GLM-Image 融合了前沿的架构创新,实现卓越的图像生成性能。

🔷

语义-VQ 标记化

16× 压缩比,保留语义信息。相比传统 VQVAE 方法具有更优的收敛特性。

📊

渐进式生成

分层令牌生成:首先生成低分辨率布局(约 256 个令牌),然后添加高分辨率细节(1K-4K 个令牌)。

✍️

Glyph-byT5 编码器

字符级编码实现卓越的文本渲染准确性,特别适合中文字符和复杂文字系统。

🎯

块因果注意力

在图像编辑过程中保持高频细节,同时减少计算开销以实现高效处理。

最新见解与指南

深入探索关于 GLM-Image 功能、技术和最佳实践的文章。

Jan 14, 2026 12 min read

掌握 GLM-Image 文本渲染

了解 GLM-Image 如何通过 Glyph-byT5 编码器实现卓越的文本渲染准确性,特别是对中文字符的处理。

阅读更多
Jan 14, 2026 15 min read

知识密集型图像生成

探索 GLM-Image 如何在复杂指令遵循和事实准确性方面表现出色,适用于教育和技术内容。

阅读更多
Jan 14, 2026 14 min read

高级图像编辑技术

探索 GLM-Image 的块因果注意力机制,实现精确的图像编辑、风格迁移和身份保持。

阅读更多

快速开始使用 GLM-Image

几分钟内开始使用 GLM-Image。安装所需的软件包并开始生成高质量图像。

安装

pip install git+https://github.com/huggingface/transformers.git
pip install git+https://github.com/huggingface/diffusers.git

系统要求

GPU

80GB+ 显存或多 GPU 配置

Python

版本 3.8 或更高

基本使用

import torch
from diffusers.pipelines.glm_image import GlmImagePipeline

pipe = GlmImagePipeline.from_pretrained(
    "zai-org/GLM-Image",
    torch_dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "A beautiful landscape with mountains and a lake"
image = pipe(
    prompt=prompt,
    height=32 * 32,
    width=36 * 32,
    num_inference_steps=50,
    guidance_scale=1.5
).images[0]

image.save("output.png")

常见问题

关于 GLM-Image 及其功能的常见问题。

GLM-Image 是首个开源工业级离散自回归图像生成模型,拥有 16B 参数(9B 自回归 + 7B 扩散解码器)。它在文本渲染(尤其是中文字符)和知识密集型内容生成方面表现出色。

GLM-Image 使用 Glyph-byT5 文本编码器,为图像中的文本渲染提供卓越的准确性。它在中文文本上达到 0.9788 的准确率(LongText-Bench ZH),在英文文本上达到 0.9557(LongText-Bench EN),超越其他模型。

GLM-Image 需要配备 80GB+ 显存的 GPU 或多 GPU 配置。它还需要 Python 3.8 或更高版本以及最新稳定版本的 PyTorch。该模型的大参数量(16B)需要大量的计算资源。

GLM-Image 结合了 9B 自回归生成器和 7B 扩散解码器。自回归组件首先生成低分辨率令牌(约 256 个)以建立布局,然后扩散解码器添加高分辨率细节(1K-4K 个令牌)以生成最终图像。

可以!GLM-Image 采用 Apache 2.0 许可证发布,允许商业使用。您可以在商业项目中使用 GLM-Image,修改它并分发它,只要您遵守许可证条款。

知识密集型生成是指 GLM-Image 能够以事实准确性遵循复杂指令的能力。这使其非常适合创建教育内容、技术图表以及需要准确表示复杂信息的图像。

GLM-Image 在文本渲染任务中超越同类模型,在 CVTG-2K 词准确率上达到 0.9116(比竞品提升 16.1%)。它在中文文本渲染方面也表现出色,准确率达到 0.9788,使其成为多语言内容创作的最佳选择。

可以,GLM-Image 可以针对特定领域或风格进行微调。该模型的架构支持迁移学习,允许您根据特定需求进行调整,同时保持其在文本渲染和知识密集型生成方面的核心能力。