5分钟阅读
AI前沿动态:GLM46V开源、AutoGLM 20与RealGen,设计师与开发者的新工具
前言
近期,AI领域接连迎来重磅更新,这些进展不仅为技术从业者提供了更强大的工具,也为设计师、产品经理等创意工作者开启了新的可能性。对于设计师而言,关注这些动态的核心在于理解AI如何成为提升效率、激发灵感和优化工作流程的“副驾驶”。例如,多模态模型能如何辅助设计稿生成、原型测试与用户研究?AI Agent又如何能自动化处理繁琐的跨平台发布任务?
对于AI从业者与爱好者,这些开源模型和框架是绝佳的“练兵场”。你可以直接体验顶尖的多模态理解能力,将其集成到自己的项目中,或是研究其架构以获取灵感。无论是想快速构建一个智能应用,还是深入探索AI的前沿,现在正是动手实践的好时机。
GLM-4.6V 系列正式开源
智谱AI正式发布了GLM-4.6V系列多模态大模型,为视觉-语言任务带来了新的标杆。
- GLM-4.6V (106B):旗舰版视觉语言模型,拥有128K的超长上下文窗口。
- GLM-4.6V-Flash (9B):超快、轻量级版本,专为本地部署和低延迟场景优化。
此次发布首次在GLM视觉模型家族中实现了**原生函数调用(Function Calling)**能力。
资源链接:
- 模型权重:http://huggingface.co/collections/zai-org/glm-46v
- 在线体验:http://chat.z.ai
- API文档:http://docs.z.ai/guides/vlm/glm-4.6v
- 技术博客:http://z.ai/blog/glm-4.6v
API价格(每百万tokens):
- GLM-4.6V:输入 $0.6 / 输出 $0.9
- GLM-4.6V-Flash:免费
GLM-4.6V能够接受多种类型的多模态输入,并自动生成高质量、结构化的图文交织内容。
模型支持端到端的“搜索-分析”工作流,能够从视觉感知无缝衔接到在线检索、推理,并给出最终答案。
GLM-4.6V针对前端开发进行了优化,能显著缩短从“设计稿到代码”的转化周期。
其视觉编码器与128K上下文长度对齐,赋予了模型强大的“记忆力”。在实际应用中,这相当于单次推理即可处理约150页复杂文档、200页幻灯片或长达一小时的视频。
模型可以对长视频进行全局摘要,同时保留对时间线索进行细粒度推理的能力,例如总结一场完整足球比赛中的进球事件和时间戳。

AutoGLM 2.0:能操作手机的AI智能体开源
同样是来自智谱AI的惊喜!AutoGLM项目现已全面开源,内容包括:
- 模型:采用MIT许可证的核心模型。
- 代码与框架:完整的训练代码和“手机使用能力”框架与工具链。
- 可直接运行的Demo:覆盖50+个高频中文App的操作。
- 工程资源:针对Android的适配层、示例工程、详细文档和上手指南。

AutoGLM 2.0是一个能够操作真实手机应用的AI智能体。只需一句话指令,它就能帮你点外卖、订机票、查房源,操作美团、京东、小红书、抖音等数十个应用。
它同样能协助办公,操作网页版的飞书、网易邮箱、知乎、微博等。你可以让它从信息检索开始,完成内容撰写、视频生成,并最终发布到小红书和抖音,跨网站、跨平台自动化完成全流程工作。
更酷的是,AutoGLM 2.0为AI配备了一部专属的云端手机/电脑,它在云端独立完成任务,完全不会干扰你正常使用自己的设备。通过接入其API,你可以将AutoGLM 2.0的能力无缝融入各类硬件中,除了电脑手机,手表、眼镜、智能家电等设备均可支持。

资源链接:
- 项目下载:https://autoglm.zhipuai.cn/htdocs/download.html
- API权限申请:https://autoglm.zhipuai.cn/misc/developer-apply
- GitHub项目地址:https://github.com/zai-org/Open-AutoGLM
RealGen:以“AI检测器”为奖励,消灭AI痕迹的生图模型
RealGen 是另一个追求极致真实感的图像生成模型。它的独特之处在于,使用AI检测器作为奖励信号,来消除图像中常见的“AI痕迹”。该模型基于优化的FLUX. 1-dev,并结合了Qwen-3 4B与Qwen2.5-VL,在与真实照片的对比评测中,取得了 50.15%的胜率。
项目主页:https://yejy53.github.io/RealGen/

技术摘要: 尽管当前先进的文生图模型在图文一致性和世界知识上表现卓越,但在生成“以假乱真”的写实图像上仍有不足,常会产生皮肤过于光滑、面部油亮等明显的“AI感”。为了重新实现“与现实无法区分”的生成目标,我们提出了RealGen框架。
RealGen集成了用于提示词优化的LLM组件和用于写实图像生成的扩散模型。受对抗生成的启发,我们引入了 “检测器奖励”机制,利用语义级和特征级的合成图像检测器来量化“人工痕迹”并评估真实感。我们使用GRPO算法,利用这一奖励信号来优化整个生成流程,显著提升了图像的写实感和细节。
此外,我们还提出了RealBench自动化评估基准,采用检测器评分和竞技场评分,实现了无需人工参与的写实度评估,其结果更准确,也更符合真实用户体验。实验表明,RealGen在写实度、细节和美学上,显著优于GPT-Image-1、Qwen-Image等通用模型,以及FLUX-Krea等专业写实模型。

从已公布的样张来看,效果非常出色,期待其正式发布!

写在最后
这一波AI更新浪潮,清晰地展示了技术正朝着更强大、更易用、更贴近真实需求的方向演进。对于设计师而言,这不仅仅是工具的升级,更是思维和工作方式的变革。
设计师可以重点关注:
- 多模态输入与设计协作:像GLM-4.6V这样的模型,能理解草图、截图、情绪板,并生成设计说明或代码片段,可以作为强大的创意副手。
- 自动化工作流:AutoGLM展示了AI处理跨平台、重复性任务的潜力。设计师可以思考如何将素材整理、多平台发布、设计反馈收集等环节自动化。
- 追求极致真实感:RealGen等模型对“真实”的追求,提醒我们在UI设计、营销视觉、概念渲染中,对质感和细节的把握至关重要。了解AI生成图像的局限与优势,能帮助我们更好地利用它。
保持好奇心,亲手试用这些新工具,理解其原理和边界,是将AI转化为个人竞争优势的关键。未来属于那些善于利用技术放大创造力的“超级个体”。
更多 AI 前沿技术与设计灵感,欢迎关注「设计小站」公众号(ID:sjxz00),一起探索科技与设计的融合创新。