WithAI.Design

5分钟阅读

刚刚!阿里AI小钢炮Z Image登场!6B参数实现顶尖文生图效果

刚刚!阿里AI小钢炮Z  Image登场!6B参数实现顶尖文生图效果

前言

前脚FLUX. 2的相关信息刚发布,后脚阿里通义实验室就推出了全新的图像生成模型Z - Image。这款模型最亮眼的优势在于“轻量且能打”,仅6B参数的体量,却有着契合国人审美的输出效果。和开源模型一样,它使用上毫无限制,性能与视觉表现均十分出色。

在当下众多强大闭源模型占据市场的环境中,Z - Image或许正是开源模型实现突围的典型案例。它的核心性能亮点十分突出,具体如下:

  1. 视觉质量:可达到与国际商业模型近乎持平的视觉呈现水准;
  2. 核心参数:仅6B参数,轻量化特质显著;
  3. 硬件要求:16GB以下显存即可运行,消费级显卡就能流畅驱动;
  4. 生成效率:仅需8步采样,就能输出高清图像;
  5. 核心能力:能精准理解复杂指令,具备一定的推理思考能力,生成画面写实度高、光影效果自然,中英双语文字渲染也十分精准。

官方核心信息发布

本次Z - Image由通义实验室(Tongyi Lab)正式推出,其官方发布的核心内容及技术细节整理如下: 我们很荣幸推出Z - Image,这是一款高效的60亿参数图像生成基础模型。通过系统性优化,该模型证明了无需依赖庞大的模型体量也能实现顶尖性能。在照片级写实生成以及双语文字渲染方面,它交出了可媲美主流商业模型的优异答卷。

仅60亿参数的Z - Image,生成的写实图像质量能与参数规模大一个数量级的模型相抗衡。它可在显存不足16GB的消费级显卡上流畅运行,让更多人有机会接触到先进的图像生成技术。目前该系列公开推出了两款专项模型,分别是已上线的生成类模型Z - Image - Turbo,以及即将发布的编辑类模型Z - Image - Edit。

模型架构

Z - Image采用单流扩散Transformer架构。这种设计将各类条件输入(如文本和图像嵌入)与含噪图像潜变量整合为单一序列,再输入至Transformer主干网络进行处理。

性能测评

根据内部基于elo评分体系的测评结果,Z - Image与其他主流模型相比竞争力十足,在开源模型中更是达到了顶尖水平。

核心功能亮点

  1. 高效写实的画面生成 Z - Image - Turbo擅长生成照片级写实图像,对细节、光影和纹理都能精准把控。它在保证画面高还原度的同时,兼顾构图与整体氛围的审美表现,让生成的图像既真实又具视觉吸引力。

  2. 精准的中英双语文字渲染 该模型能精准渲染中英双语文字,同时不破坏人物面部的真实感和画面整体的美感,效果可媲美顶级闭源模型。在海报设计场景中,它展现出出色的构图能力和排版审美;即便面对小字体等较难的渲染场景,也能输出文字精准且视觉效果出众的设计作品。

  3. 丰富的知识储备与文化理解 Z - Image具备深厚的通用知识储备和多元文化认知能力,能够精准生成各类主题内容,涵盖著名地标、知名人物以及各类现实中的具体物体等。

  4. 结合先验知识的深度语义理解 其强大的提示词增强器(PE)依托结构化推理链注入逻辑与常识,能够处理类似“鸡兔同笼”问题、古典诗词可视化这类复杂任务。在图像编辑时,即便用户指令模糊,模型也能通过推理推断真实需求,确保输出结果逻辑连贯。

  5. 精准的指令执行与创意编辑 待上线的Z - Image - Edit能精准执行复杂编辑指令,比如同时更换背景并提亮画面;还可对指定位置的文字进行修改,且在大幅图像调整过程中保持人物形象的一致性,实现对图像元素的精细化控制。

目前Z - Image相关资源已对外开放,欢迎开发者与设计从业者参与体验并反馈意见,共同构建开放透明、高效易用且可持续发展的生成式AI生态。相关平台链接如下:

业内及网友实测反馈

Z - Image发布后,迅速引发了AI领域从业者和爱好者的广泛关注,不少人通过实测分享了使用感受与对比结果: ##1 . @bozhou_ai 对比了32B参数的Flux 2 Dev和6B参数的Z - Image Turbo,直言6B参数能达到这样的效果十分惊艳,甚至认为FLUX. 2的地位可能会受到冲击。

  1. @AsgardAGI 评价“阿里这款6B参数的Z - Image效果非常出色”,并附上多张实测生成图。

  2. @BrentLynch 15小时前发文称Z - Image Turbo是FLUX. 2的强劲对手,并围绕“40岁硬朗战士的特写肖像”这一相同指令,对比了三款模型的生成效果。 ⬇️ Z - Image生成效果 ⬇️ FLUX. 2生成效果 ⬇️ NANO BANANA PRO生成效果

  3. @rupeshrockzrupz 4小时前分享实测体验,称效果令人惊叹,且这些图像均是在12GB显存的RTX 4070显卡上生成的。

  4. @scymen 实测后赞叹,用Z - Image生成的图像,光影下的皮肤细节清晰度极高。

  5. @CardilloSamuel 快速测试后表示,Z - Image在低显存占用下实现了高质量图像生成。在他的测试中,生成效果排序为NANO BANANA PRO第一、Z - Image第二、FLUX. 2第三。

  6. @block0_eth 补充了Z - Image的三个变体信息:Z - Image - Turbo是精简版本、Z - Image - Base是非蒸馏基础模型、Z - Image - Edit是专注图像编辑的微调版本,并附上对应的生成效果展示图。

  7. @Gorden_Sun 两次发文盛赞该模型,称其6B的体量能实现1秒出图,人物真实、审美在线,还能精准还原名人形象,堪称本地AI绘画的首选;同时提到该模型生成效果很契合中国审美。

  8. @jackcatmo 2小时前发文直言“这个模型的生成质量太高了”,并感慨开源模型在特定领域确实有着独特优势。

  9. @sundyme 18小时前称Z - Image作为可在消费级显卡运行的小尺寸模型,功能远超预期,其照片级真实感、精准双语文本渲染、提示词增强推理以及指令图像编辑四大能力尤为突出。

  10. @wavespeed_ai 表示Z - Image已在WaveSpeedAI上线,称赞Turbo版本在16GB显存显卡上近乎瞬时出图,Base版本擅长高清细节呈现,Edit版本支持自然语言编辑图像,中英双语指令均可生成专业级效果。

  11. @AIojisan1952 测试后评价Z - Image Turbo生成速度极快,刚加载完提示词就完成了图像生成,且照片风格的图像真实自然,还感叹年末AI领域的竞争会愈发激烈。

  12. @Xianbao_QIAN 补充了模型的关键优势:在H800显卡上生成速度可达亚秒级,适配16GB显存消费级设备,图像高频细节丰富,同时提供非蒸馏的Base版本,采用Apache 2许可协议。

  13. @wildmindai 欣喜地发现Z - Image(造相)已适配ComfyUI,并分享了多张用该模型生成的高质量图像。

  14. @janekm 分享了Z - Image生成的风景图,评价其风景照表现同样出色。

写在最后

看过这么多实测内容和反馈,想必大家对Z - Image的实力已有清晰认知,这款堪称“AI小钢炮”的模型绝对值得一试。

它的出现或许预示着未来AI模型的一个重要发展方向——技术平权。让受限于硬件设备的普通用户,也能轻松使用高性能、高品质的生成模型。这样的模型无疑有着广阔的发展前景,让我们一同期待它后续的表现!

更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。

标签