刚刚！阿里AI小钢炮Z Image登场！6B参数实现顶尖文生图效果

前言

前脚FLUX. 2的相关信息刚发布，后脚阿里通义实验室就推出了全新的图像生成模型Z - Image。这款模型最亮眼的优势在于“轻量且能打”，仅6B参数的体量，却有着契合国人审美的输出效果。和开源模型一样，它使用上毫无限制，性能与视觉表现均十分出色。

在当下众多强大闭源模型占据市场的环境中，Z - Image或许正是开源模型实现突围的典型案例。它的核心性能亮点十分突出，具体如下：

视觉质量：可达到与国际商业模型近乎持平的视觉呈现水准；
核心参数：仅6B参数，轻量化特质显著；
硬件要求：16GB以下显存即可运行，消费级显卡就能流畅驱动；
生成效率：仅需8步采样，就能输出高清图像；
核心能力：能精准理解复杂指令，具备一定的推理思考能力，生成画面写实度高、光影效果自然，中英双语文字渲染也十分精准。

官方核心信息发布

本次Z - Image由通义实验室（Tongyi Lab）正式推出，其官方发布的核心内容及技术细节整理如下：我们很荣幸推出Z - Image，这是一款高效的60亿参数图像生成基础模型。通过系统性优化，该模型证明了无需依赖庞大的模型体量也能实现顶尖性能。在照片级写实生成以及双语文字渲染方面，它交出了可媲美主流商业模型的优异答卷。

仅60亿参数的Z - Image，生成的写实图像质量能与参数规模大一个数量级的模型相抗衡。它可在显存不足16GB的消费级显卡上流畅运行，让更多人有机会接触到先进的图像生成技术。目前该系列公开推出了两款专项模型，分别是已上线的生成类模型Z - Image - Turbo，以及即将发布的编辑类模型Z - Image - Edit。

模型架构

Z - Image采用单流扩散Transformer架构。这种设计将各类条件输入（如文本和图像嵌入）与含噪图像潜变量整合为单一序列，再输入至Transformer主干网络进行处理。

性能测评

根据内部基于elo评分体系的测评结果，Z - Image与其他主流模型相比竞争力十足，在开源模型中更是达到了顶尖水平。

核心功能亮点

高效写实的画面生成 Z - Image - Turbo擅长生成照片级写实图像，对细节、光影和纹理都能精准把控。它在保证画面高还原度的同时，兼顾构图与整体氛围的审美表现，让生成的图像既真实又具视觉吸引力。
精准的中英双语文字渲染 该模型能精准渲染中英双语文字，同时不破坏人物面部的真实感和画面整体的美感，效果可媲美顶级闭源模型。在海报设计场景中，它展现出出色的构图能力和排版审美；即便面对小字体等较难的渲染场景，也能输出文字精准且视觉效果出众的设计作品。
丰富的知识储备与文化理解 Z - Image具备深厚的通用知识储备和多元文化认知能力，能够精准生成各类主题内容，涵盖著名地标、知名人物以及各类现实中的具体物体等。
结合先验知识的深度语义理解 其强大的提示词增强器（PE）依托结构化推理链注入逻辑与常识，能够处理类似“鸡兔同笼”问题、古典诗词可视化这类复杂任务。在图像编辑时，即便用户指令模糊，模型也能通过推理推断真实需求，确保输出结果逻辑连贯。
精准的指令执行与创意编辑 待上线的Z - Image - Edit能精准执行复杂编辑指令，比如同时更换背景并提亮画面；还可对指定位置的文字进行修改，且在大幅图像调整过程中保持人物形象的一致性，实现对图像元素的精细化控制。

目前Z - Image相关资源已对外开放，欢迎开发者与设计从业者参与体验并反馈意见，共同构建开放透明、高效易用且可持续发展的生成式AI生态。相关平台链接如下：

GitHub：https://github.com/Tongyi-MAI/Z-Image
ModelScope：https://modelscope.ai/models/Tongyi-MAI/Z-Image-Turbo/summary
HuggingFace：https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
Z - Image作品展示库：https://modelscope.cn/studios/Tongyi-MAI/Z-Image-Gallery

业内及网友实测反馈

Z - Image发布后，迅速引发了AI领域从业者和爱好者的广泛关注，不少人通过实测分享了使用感受与对比结果： ##1 . @bozhou_ai 对比了32B参数的Flux 2 Dev和6B参数的Z - Image Turbo，直言6B参数能达到这样的效果十分惊艳，甚至认为FLUX. 2的地位可能会受到冲击。

@AsgardAGI 评价“阿里这款6B参数的Z - Image效果非常出色”，并附上多张实测生成图。
@BrentLynch 15小时前发文称Z - Image Turbo是FLUX. 2的强劲对手，并围绕“40岁硬朗战士的特写肖像”这一相同指令，对比了三款模型的生成效果。 ⬇️ Z - Image生成效果 ⬇️ FLUX. 2生成效果 ⬇️ NANO BANANA PRO生成效果
@rupeshrockzrupz 4小时前分享实测体验，称效果令人惊叹，且这些图像均是在12GB显存的RTX 4070显卡上生成的。
@scymen 实测后赞叹，用Z - Image生成的图像，光影下的皮肤细节清晰度极高。
@CardilloSamuel 快速测试后表示，Z - Image在低显存占用下实现了高质量图像生成。在他的测试中，生成效果排序为NANO BANANA PRO第一、Z - Image第二、FLUX. 2第三。
@block0_eth 补充了Z - Image的三个变体信息：Z - Image - Turbo是精简版本、Z - Image - Base是非蒸馏基础模型、Z - Image - Edit是专注图像编辑的微调版本，并附上对应的生成效果展示图。
@Gorden_Sun 两次发文盛赞该模型，称其6B的体量能实现1秒出图，人物真实、审美在线，还能精准还原名人形象，堪称本地AI绘画的首选；同时提到该模型生成效果很契合中国审美。
@jackcatmo 2小时前发文直言“这个模型的生成质量太高了”，并感慨开源模型在特定领域确实有着独特优势。
@sundyme 18小时前称Z - Image作为可在消费级显卡运行的小尺寸模型，功能远超预期，其照片级真实感、精准双语文本渲染、提示词增强推理以及指令图像编辑四大能力尤为突出。
@wavespeed_ai 表示Z - Image已在WaveSpeedAI上线，称赞Turbo版本在16GB显存显卡上近乎瞬时出图，Base版本擅长高清细节呈现，Edit版本支持自然语言编辑图像，中英双语指令均可生成专业级效果。
@AIojisan1952 测试后评价Z - Image Turbo生成速度极快，刚加载完提示词就完成了图像生成，且照片风格的图像真实自然，还感叹年末AI领域的竞争会愈发激烈。
@Xianbao_QIAN 补充了模型的关键优势：在H800显卡上生成速度可达亚秒级，适配16GB显存消费级设备，图像高频细节丰富，同时提供非蒸馏的Base版本，采用Apache 2许可协议。
@wildmindai 欣喜地发现Z - Image（造相）已适配ComfyUI，并分享了多张用该模型生成的高质量图像。
@janekm 分享了Z - Image生成的风景图，评价其风景照表现同样出色。