Zimage Turbo 超越 FLUX 2：本地 AI 图像生成

2025-12-01 作者：技术PP虾浏览量：70

Zimage Turbo 为本地图像生成设定了新的基准
我们镇上来了一个新的图像模型。它是Zimage Turbo，一个来自阿里云的AI图像模型，真的很好。我会在最后分享工作流程，但首先我想展示一下它能做什么，并且如何用ComfyUI本地运行它。

视觉质量和学科覆盖
Zimage Turbo 产生具有强烈纹理和清晰解剖结构的逼真结果。它能够处理动物、人类和物体，而没有明显的缺陷。细节丰富，包括通常令较小模型难以处理的小毛发和表面纹理。它还能够很好地处理文本渲染。

参数计数和硬件需求
Zimage Turbo 有 60 亿参数。相比之下，根据 Black Forest Labs 在 Flux Land 的当前方向，仅进行推理就需要一个 H100 GPU 和 CPU 卸载。Zimage Turbo 只需要一个中端到低端的显卡，这就足以进行本地生成。

从 Hugging Face 下载所需内容
模型文件已经在Hugging Face上。在ComfyUI中正确运行Zimage Turbo需要三部分：扩散模型、文本编码器和VAE。

扩散模型 - 获取完整的模型。您可以直接运行这个。
文本编码器 - Zimage Turbo 使用 Qwen 3，拥有 40 亿参数。我之前测试过它，并将其与 Qwen 2.5 进行了比较。即使参数较少，Qwen 3 也更胜一筹，而且应该消耗更少的 VRAM。
VAE - 下载VAE并将其放置在正确的文件夹中。
ComfyUI 文件夹放置
将每个文件放入正确的ComfyUI文件夹中。这很简单但很重要，以便工作流程可以自动找到模型。

组件它是什么 ComfyUI中的目标文件夹
扩散模型主要的Zimage Turbo扩散检查点 ComfyUI/模型/检查点
文本编码器 Qwen 3 - 4B 文本编码器 ComfyUI/模型/文本编码器
变分自编码器用于解码潜在变量的变分自编码器 ComfyUI/模型/vae
笔记：

如果你的ComfyUI设置使用了不同的文件夹名称，请相应地进行匹配，但保持相同的结构概念：用于扩散的检查点，用于编码器的文本编码器，用于VAE的VAE。
不要混合具有相同名称的多个VAE。确保文件名清晰，并在工作流程中选择预期的VAE。
官方ComfyUI工作流程
Zimage Turbo有一个官方的工作流。保存工作流图像并将其拖放到ComfyUI中。这将自动生成节点图。之后，将节点指向您下载的模型文件。

保存官方工作流程图像。
打开ComfyUI。
将工作流图像拖放到ComfyUI画布中。
检查模型节点引用：
完整的Zimage Turbo扩散模型。
Qwen 3 - 4B 文本编码器。
你下载的VAE。
FP8 变体以降低显存
我正在使用FP8版本的模型。它较小但仍能产生出色的结果。我将包括FP8构建的链接以及主要文件。即使在FP8中，质量也能很好地保持，这使得在中等配置的GPU上进行局部生成变得更加可行。

FP8减少内存使用。
使用FP8，文本生成看起来很可靠，我没有发现任何问题。
如果你的VRAM紧张，从FP8开始。
Zimage Turbo - 文本渲染和保真度
Zimage Turbo 处理图像中的文本效果很好。即使在 FP8 变体中，文本输出看起来也很清晰。在我的测试中，字母、曲线和间距都没有任何问题。各个主题的质量都很一致，纹理依然详细。

如果你在其他模型中遇到文本渲染问题，Zimage Turbo值得一试。它在保持整体图像保真度的同时生成可读文本。

性能 - 普通显卡上的速度
Zimage Turbo运行得很快。为了感受速度，我运行了一代并观看了这个过程：

开始编码。
它进入了新一代。
进展迅速达到50%。
这没有启用任何特殊的加速功能。
如果你启用像 sage attention 这样的优化，应该会快得多。
即使不进行调整，该模型也感觉响应迅速。通过调整，您可以进一步提高吞吐量并减少延迟。

加速选项
如果你想要更快的速度：

启用注意力优化，例如 sage 注意力。
使用低精度构建，例如 FP8，以减少 VRAM 压力。
请保持你的ComfyUI更新，以获得最新的性能改进。
这些是可选的。重点是，即使没有额外的加速，Zimage Turbo 也能很好地运行，这与需要顶级硬件的复杂设置形成了对比。

模型组件 - 每个部分的重要性
Zimage Turbo 通过三个核心组件来提供高质量的服务：

扩散模型

主要图像生成大脑。它包含用于去噪和结构学习的权重。您必须将其与工作流程匹配。
文本编码器 - Qwen 3 - 4B

将你的提示转换为嵌入。Qwen 3 是这个角色的强有力选择。在我的测试中，它在使用更少参数的情况下表现优于 Qwen 2.5，这有助于减少 VRAM 使用。
变分自编码器

在潜在空间和像素空间之间进行转换。一个好的VAE会保留细节和纹理。请确保您使用的是Zimage Turbo所需的VAE。
本地生成 vs 重型服务器要求
这是一个实际的对比：

FLUX 2方向

需要H100级的GPU。
推理的CPU卸载。
适用于高端硬件。
Zimage Turbo 接近

运行在中等至低档显卡上。
不需要特殊的服务器设置。
FP8 选项使它更容易适应有限的 VRAM。
这就是为什么我认为Zimage Turbo是当今本地工作流程的有力选择。

分步指南 - 在ComfyUI中安装和运行Zimage Turbo
按照此清单的顺序进行操作。保持相同的顺序以避免遗漏依赖项。

Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指南屏幕截图 1

准备 ComfyUI
在你的系统上安装ComfyUI。
确认您能打开应用程序并加载一个基本的工作流。
Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指导屏幕截图 2

从Hugging Face下载Zimage Turbo文件
扩散模型 - 完整模型检查点。
文本编码器 - Qwen 3 - 4B。
VAE - 推荐用于Zimage Turbo的VAE。
Zimage Turbo 战胜 FLUX 2：本地 AI 图像 + ComfyUI 指南屏幕截图 3

可选 - 下载FP8变体
如果你想要更小的内存使用，请获取FP8版本的扩散模型。
如果你打算比较质量，请保留两个文件。
Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指南屏幕截图 4

将文件放入ComfyUI文件夹中
扩散模型 -> ComfyUI/models/checkpoints
文本编码器 -> ComfyUI/models/text_encoders
VAE -> ComfyUI/模型/vae
Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指南屏幕截图 5

加载官方Zimage Turbo工作流程
保存工作流图像。
将其拖入ComfyUI画布。
检查节点中的所有文件路径。
Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指南屏幕截图 6

配置您的设置
选择您想要运行的扩散模型。
选择 Qwen 3 - 4B 文本编码器。
选择VAE。
Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指南屏幕截图 7

运行测试生成
使用简短的提示。
确认编码开始，然后生成进行。
观看进度。您应该看到快速移动到50%。
Zimage Turbo 超越 FLUX 2：本地 AI 图像 + ComfyUI 指导屏幕截图 8

可选 - 开启加速

如果您的设置中可用，请启用智慧关注。
如果需要更高的吞吐量，请尝试较低的步骤或更快的采样器。
检查结果

检查图像内部的文本渲染是否对您的使用案例重要。
检查表面纹理和解剖结构。
保存工作流程和设置

保留工作图的副本。
文档中记录每个组件的版本。
FP8 - 实用笔记
如果你选择FP8:

预计使用较低的VRAM并加快加载速度。
质量在使用Zimage Turbo时表现良好。我未看到文本或解剖学方面的明显退化。
这是一个对中端显卡来说很好的默认设置。
如果你有多余的显存并且想进行比较，可以将全精度模型作为第二个选项，并在工作流程中切换它们。

提示和文本 - 我所看到的
Zimage Turbo 对文本处理得很好。它能清晰地渲染字母。在连续运行中，文本在后续尝试中看起来更好。如果文本准确性对您的工作流程很重要，在尝试更重的模型之前，值得先测试 Zimage Turbo。

跨学科可靠性
该模型涵盖：

动物，包括猫。
人类。
物体。
纹理再现是一致的。小纤维、头发和表面细节都保持完好。解剖结构没有奇怪的伪影。

VRAM 意识和实际限制
因为Zimage Turbo是6B并且支持FP8，它适用于那些大型模型难以处理的设置。如果你之前不得不依赖服务器硬件，这个模型使在消费级GPU上进行本地工作变得更加现实。如果你遇到内存错误，请检查：

您选择了FP8版本。
你关闭了其他GPU密集型应用程序。
你暂时减小了图像尺寸或步数进行测试。
ComfyUI工作流程提示
为了保持运行顺畅：

保持节点输入干净。不要指向缺失的文件。
验证模型名称是否与您下载的文件匹配。
如果节点显示错误，请从下拉菜单中重新选择模型，以便 ComfyUI 刷新路径。
在进行实验之前，保存一个已知的良好工作流版本。
故障排除检查表
如果你这一代停滞或失败：

请再次确认扩散模型在检查点文件夹中。
确认文本编码器是Qwen 3 - 4B，并且在text_encoders文件夹中。
确认VAE文件在vae文件夹中，并且在工作流程中已选择。
如果你的显存非常低，请切换到FP8版本。
降低输出分辨率以测试稳定性。
禁用可选加速以隔离问题，然后逐个重新启用。
为什么选择 Qwen 3 - 4B
Qwen 3 - 4B 是一个强大的文本编码器选择。在我的测试中，它比 Qwen 2.5 更强大，并且使用更少的参数。这意味着编码器本身消耗的 VRAM 更少。您可以在不增加较大编码器的开销的情况下获得更好的提示条件。

关于模型质量的观察
文本 - 实心，干净，可读。
解剖学 - 我生成的样本没有明显的缺陷。
纹理 - 详细，小元素显示良好。
主题 - 在动物、人类和物体之间灵活。
这些是日常使用中重要的关键因素。

快速总结
快速开始。
编码并延迟进入生成。
立即达到50%。
即使没有特殊加速，也能快速完成。
可以更快，用专注的智慧。
您不需要对系统进行大幅更改即可从Zimage Turbo获得良好的速度。

文件和工作流程 - 我分享的内容
工作流程和模型是你需要的基本要素：

ComfyUI 的官方工作流程图像。
主要的Zimage Turbo扩散模型。
Qwen 3 - 4B 文本编码器。
变分自编码器 (VAE)。
FP8 变体链接。
这些是建议首先下载的文件，以便您可以重现我的结果。

Zimage Turbo 上下文和闭幕致辞
Zimage Turbo 强大到让本地用户感到沉重的 FLUX 2 风格要求变得遥不可及。这个模型不需要 H100 或复杂的 CPU 卸载。您可以使用中端到低端 GPU 运行它，而 FP8 版本使其更加易于使用。

再一次，中国模特击败了西方模特。

快速参考 - 一览设置
获取扩散模型，Qwen 3 - 4B文本编码器，以及来自Hugging Face的VAE。
将它们放入：
扩散模型的检查点
Qwen 3 - 4B 的文本编码器
对VAE的VAE
将官方工作流程拖动到ComfyUI中以加载。
如果您希望降低VRAM使用，请选择FP8变体。
运行测试提示并确认编码和生成无错误进行。
可选启用Sage注意力以提高速度。
链接
Zimage Turbo 扩散模型 - 完整模型
Zimage Turbo 扩散模型 - FP8 变体
Qwen 3 - 4B 文本编码器
VAE 用于 Zimage Turbo
官方Zimage Turbo ComfyUI工作流程图像

科技方案

Zimage Turbo 超越 FLUX 2：本地 AI 图像生成