Zimage Turbo 超越 FLUX 2:本地 AI 图像生成
Zimage Turbo 为本地图像生成设定了新的基准
我们镇上来了一个新的图像模型。它是Zimage Turbo,一个来自阿里云的AI图像模型,真的很好。我会在最后分享工作流程,但首先我想展示一下它能做什么,并且如何用ComfyUI本地运行它。
视觉质量和学科覆盖
Zimage Turbo 产生具有强烈纹理和清晰解剖结构的逼真结果。它能够处理动物、人类和物体,而没有明显的缺陷。细节丰富,包括通常令较小模型难以处理的小毛发和表面纹理。它还能够很好地处理文本渲染。
参数计数和硬件需求
Zimage Turbo 有 60 亿参数。相比之下,根据 Black Forest Labs 在 Flux Land 的当前方向,仅进行推理就需要一个 H100 GPU 和 CPU 卸载。Zimage Turbo 只需要一个中端到低端的显卡,这就足以进行本地生成。
从 Hugging Face 下载所需内容
模型文件已经在Hugging Face上。在ComfyUI中正确运行Zimage Turbo需要三部分:扩散模型、文本编码器和VAE。
扩散模型 - 获取完整的模型。您可以直接运行这个。
文本编码器 - Zimage Turbo 使用 Qwen 3,拥有 40 亿参数。我之前测试过它,并将其与 Qwen 2.5 进行了比较。即使参数较少,Qwen 3 也更胜一筹,而且应该消耗更少的 VRAM。
VAE - 下载VAE并将其放置在正确的文件夹中。
ComfyUI 文件夹放置
将每个文件放入正确的ComfyUI文件夹中。这很简单但很重要,以便工作流程可以自动找到模型。
组件 它是什么 ComfyUI中的目标文件夹
扩散模型 主要的Zimage Turbo扩散检查点 ComfyUI/模型/检查点
文本编码器 Qwen 3 - 4B 文本编码器 ComfyUI/模型/文本编码器
变分自编码器 用于解码潜在变量的变分自编码器 ComfyUI/模型/vae
笔记:
如果你的ComfyUI设置使用了不同的文件夹名称,请相应地进行匹配,但保持相同的结构概念:用于扩散的检查点,用于编码器的文本编码器,用于VAE的VAE。
不要混合具有相同名称的多个VAE。确保文件名清晰,并在工作流程中选择预期的VAE。
官方ComfyUI工作流程
Zimage Turbo有一个官方的工作流。保存工作流图像并将其拖放到ComfyUI中。这将自动生成节点图。之后,将节点指向您下载的模型文件。
保存官方工作流程图像。
打开ComfyUI。
将工作流图像拖放到ComfyUI画布中。
检查模型节点引用:
完整的Zimage Turbo扩散模型。
Qwen 3 - 4B 文本编码器。
你下载的VAE。
FP8 变体以降低显存
我正在使用FP8版本的模型。它较小但仍能产生出色的结果。我将包括FP8构建的链接以及主要文件。即使在FP8中,质量也能很好地保持,这使得在中等配置的GPU上进行局部生成变得更加可行。
FP8减少内存使用。
使用FP8,文本生成看起来很可靠,我没有发现任何问题。
如果你的VRAM紧张,从FP8开始。
Zimage Turbo - 文本渲染和保真度
Zimage Turbo 处理图像中的文本效果很好。即使在 FP8 变体中,文本输出看起来也很清晰。在我的测试中,字母、曲线和间距都没有任何问题。各个主题的质量都很一致,纹理依然详细。
如果你在其他模型中遇到文本渲染问题,Zimage Turbo值得一试。它在保持整体图像保真度的同时生成可读文本。
性能 - 普通显卡上的速度
Zimage Turbo运行得很快。为了感受速度,我运行了一代并观看了这个过程:
开始编码。
它进入了新一代。
进展迅速达到50%。
这没有启用任何特殊的加速功能。
如果你启用像 sage attention 这样的优化,应该会快得多。
即使不进行调整,该模型也感觉响应迅速。通过调整,您可以进一步提高吞吐量并减少延迟。
加速选项
如果你想要更快的速度:
启用注意力优化,例如 sage 注意力。
使用低精度构建,例如 FP8,以减少 VRAM 压力。
请保持你的ComfyUI更新,以获得最新的性能改进。
这些是可选的。重点是,即使没有额外的加速,Zimage Turbo 也能很好地运行,这与需要顶级硬件的复杂设置形成了对比。
模型组件 - 每个部分的重要性
Zimage Turbo 通过三个核心组件来提供高质量的服务:
扩散模型
主要图像生成大脑。它包含用于去噪和结构学习的权重。您必须将其与工作流程匹配。
文本编码器 - Qwen 3 - 4B
将你的提示转换为嵌入。Qwen 3 是这个角色的强有力选择。在我的测试中,它在使用更少参数的情况下表现优于 Qwen 2.5,这有助于减少 VRAM 使用。
变分自编码器
在潜在空间和像素空间之间进行转换。一个好的VAE会保留细节和纹理。请确保您使用的是Zimage Turbo所需的VAE。
本地生成 vs 重型服务器要求
这是一个实际的对比:
FLUX 2方向
需要H100级的GPU。
推理的CPU卸载。
适用于高端硬件。
Zimage Turbo 接近
运行在中等至低档显卡上。
不需要特殊的服务器设置。
FP8 选项使它更容易适应有限的 VRAM。
这就是为什么我认为Zimage Turbo是当今本地工作流程的有力选择。
分步指南 - 在ComfyUI中安装和运行Zimage Turbo
按照此清单的顺序进行操作。保持相同的顺序以避免遗漏依赖项。
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指南屏幕截图 1
准备 ComfyUI
在你的系统上安装ComfyUI。
确认您能打开应用程序并加载一个基本的工作流。
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指导屏幕截图 2
从Hugging Face下载Zimage Turbo文件
扩散模型 - 完整模型检查点。
文本编码器 - Qwen 3 - 4B。
VAE - 推荐用于Zimage Turbo的VAE。
Zimage Turbo 战胜 FLUX 2:本地 AI 图像 + ComfyUI 指南屏幕截图 3
可选 - 下载FP8变体
如果你想要更小的内存使用,请获取FP8版本的扩散模型。
如果你打算比较质量,请保留两个文件。
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指南屏幕截图 4
将文件放入ComfyUI文件夹中
扩散模型 -> ComfyUI/models/checkpoints
文本编码器 -> ComfyUI/models/text_encoders
VAE -> ComfyUI/模型/vae
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指南屏幕截图 5
加载官方Zimage Turbo工作流程
保存工作流图像。
将其拖入ComfyUI画布。
检查节点中的所有文件路径。
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指南屏幕截图 6
配置您的设置
选择您想要运行的扩散模型。
选择 Qwen 3 - 4B 文本编码器。
选择VAE。
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指南屏幕截图 7
运行测试生成
使用简短的提示。
确认编码开始,然后生成进行。
观看进度。您应该看到快速移动到50%。
Zimage Turbo 超越 FLUX 2:本地 AI 图像 + ComfyUI 指导屏幕截图 8
可选 - 开启加速
如果您的设置中可用,请启用智慧关注。
如果需要更高的吞吐量,请尝试较低的步骤或更快的采样器。
检查结果
检查图像内部的文本渲染是否对您的使用案例重要。
检查表面纹理和解剖结构。
保存工作流程和设置
保留工作图的副本。
文档中记录每个组件的版本。
FP8 - 实用笔记
如果你选择FP8:
预计使用较低的VRAM并加快加载速度。
质量在使用Zimage Turbo时表现良好。我未看到文本或解剖学方面的明显退化。
这是一个对中端显卡来说很好的默认设置。
如果你有多余的显存并且想进行比较,可以将全精度模型作为第二个选项,并在工作流程中切换它们。
提示和文本 - 我所看到的
Zimage Turbo 对文本处理得很好。它能清晰地渲染字母。在连续运行中,文本在后续尝试中看起来更好。如果文本准确性对您的工作流程很重要,在尝试更重的模型之前,值得先测试 Zimage Turbo。
跨学科可靠性
该模型涵盖:
动物,包括猫。
人类。
物体。
纹理再现是一致的。小纤维、头发和表面细节都保持完好。解剖结构没有奇怪的伪影。
VRAM 意识和实际限制
因为Zimage Turbo是6B并且支持FP8,它适用于那些大型模型难以处理的设置。如果你之前不得不依赖服务器硬件,这个模型使在消费级GPU上进行本地工作变得更加现实。如果你遇到内存错误,请检查:
您选择了FP8版本。
你关闭了其他GPU密集型应用程序。
你暂时减小了图像尺寸或步数进行测试。
ComfyUI工作流程提示
为了保持运行顺畅:
保持节点输入干净。不要指向缺失的文件。
验证模型名称是否与您下载的文件匹配。
如果节点显示错误,请从下拉菜单中重新选择模型,以便 ComfyUI 刷新路径。
在进行实验之前,保存一个已知的良好工作流版本。
故障排除检查表
如果你这一代停滞或失败:
请再次确认扩散模型在检查点文件夹中。
确认文本编码器是Qwen 3 - 4B,并且在text_encoders文件夹中。
确认VAE文件在vae文件夹中,并且在工作流程中已选择。
如果你的显存非常低,请切换到FP8版本。
降低输出分辨率以测试稳定性。
禁用可选加速以隔离问题,然后逐个重新启用。
为什么选择 Qwen 3 - 4B
Qwen 3 - 4B 是一个强大的文本编码器选择。在我的测试中,它比 Qwen 2.5 更强大,并且使用更少的参数。这意味着编码器本身消耗的 VRAM 更少。您可以在不增加较大编码器的开销的情况下获得更好的提示条件。
关于模型质量的观察
文本 - 实心,干净,可读。
解剖学 - 我生成的样本没有明显的缺陷。
纹理 - 详细,小元素显示良好。
主题 - 在动物、人类和物体之间灵活。
这些是日常使用中重要的关键因素。
快速总结
快速开始。
编码并延迟进入生成。
立即达到50%。
即使没有特殊加速,也能快速完成。
可以更快,用专注的智慧。
您不需要对系统进行大幅更改即可从Zimage Turbo获得良好的速度。
文件和工作流程 - 我分享的内容
工作流程和模型是你需要的基本要素:
ComfyUI 的官方工作流程图像。
主要的Zimage Turbo扩散模型。
Qwen 3 - 4B 文本编码器。
变分自编码器 (VAE)。
FP8 变体链接。
这些是建议首先下载的文件,以便您可以重现我的结果。
Zimage Turbo 上下文和闭幕致辞
Zimage Turbo 强大到让本地用户感到沉重的 FLUX 2 风格要求变得遥不可及。这个模型不需要 H100 或复杂的 CPU 卸载。您可以使用中端到低端 GPU 运行它,而 FP8 版本使其更加易于使用。
再一次,中国模特击败了西方模特。
快速参考 - 一览设置
获取扩散模型,Qwen 3 - 4B文本编码器,以及来自Hugging Face的VAE。
将它们放入:
扩散模型的检查点
Qwen 3 - 4B 的文本编码器
对VAE的VAE
将官方工作流程拖动到ComfyUI中以加载。
如果您希望降低VRAM使用,请选择FP8变体。
运行测试提示并确认编码和生成无错误进行。
可选启用Sage注意力以提高速度。
链接
Zimage Turbo 扩散模型 - 完整模型
Zimage Turbo 扩散模型 - FP8 变体
Qwen 3 - 4B 文本编码器
VAE 用于 Zimage Turbo
官方Zimage Turbo ComfyUI工作流程图像
