Stability AI 最近发布了其最新和最强大的 AI 图像生成模型——Stable Diffusion 3.5,标志着 AI 图像生成技术的一个新里程碑。这一更新包括多个版本,旨在满足科研人员、爱好者、初创公司和企业的不同需求,并在易用性、性能和硬件兼容性方面进行了显著优化。
模型概览
Stable Diffusion 3.5 系列包括三个主要版本,各具特色:
- Stable Diffusion 3.5 Large:拥有80亿参数,提供卓越的图像质量和对提示词的快速响应,是 Stable Diffusion 系列中最强大的模型,非常适合专业场景和1百万像素分辨率的图像生成。
- Stable Diffusion 3.5 Large Turbo:作为 Large 版本的蒸馏版,仅需4步即可生成高质量图像,速度远超标准版本,提供了更快的图像生成体验。
- Stable Diffusion 3.5 Medium:拥有25亿参数,采用改进的 MMDiT-X 架构和训练方法,能够在消费级硬件上直接运行,平衡了图像质量和定制的易用性,能够生成0.25至2百万像素分辨率的图像。
技术亮点
可定制性:Stable Diffusion 3.5 强调模型的可定制性,允许用户根据自己的创作需求轻松微调模型,或构建基于定制工作流程的应用程序。通过集成 Query-Key Normalization 到 transformer 块中,模型训练过程更加稳定,简化了后续的微调和开发。
性能优化:Stable Diffusion 3.5 针对标准消费级硬件进行了优化,特别是 Medium 和 Large Turbo 版本,能够在不需要高性能硬件的情况下运行,使得高级图像生成技术更加普及。
多样化输出:该模型能够生成代表世界的多样化图像,不仅限于特定类型的人,包括不同肤色和特征,无需复杂的提示。
多功能风格:能够生成各种风格和美学,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
Stable Diffusion 3.5 Large在快速依从性方面处于市场领先地位,并且在图像质量方面可与更大的型号相媲美。
Stable Diffusion 3.5 Large Turbo提供了其尺寸中最快的推理时间,同时在图像质量和即时依从性方面保持高度竞争力,即使与类似尺寸的非蒸馏模型相比也是如此
Stable Diffusion 3.5 Medium 的性能优于其他中型型号,可实现快速附着力和图像质量的平衡,使其成为高效、高质量性能的首选。
社区许可
Stable Diffusion 3.5 模型在 Stability AI 社区许可下发布,该许可对非商业用途免费,包括科学研究。对于年收入不超过100万美元的初创企业、中小型企业和创作者,也可以免费进行商业使用。超出此收入范围的组织需要联系 Stability AI 以获取企业许可。
免费用于非商业用途:个人和组织可以免费将该模型用于非商业用途,包括科学研究。
免费用于商业用途(年收入高达 100 万美元):初创公司、中小型企业和创作者可以免费将该模型用于商业目的,只要其年总收入低于 100 万美元。
输出的所有权:保留所生成媒体的所有权,不受限制性许可影响。
安全与责任
Stability AI 致力于安全、负责任的 AI 实践,并在模型开发的早期阶段采取了预防措施,以防止 Stable Diffusion 3.5 被恶意使用。
未来发展
Stable Diffusion 3.5 Medium 将于10月29日公开发布,随后将推出 ControlNets,为专业用例提供高级控制功能。
Stability AI 期待社区对 Stable Diffusion 3.5 的反馈,并乐于看到创作者使用这些模型创造的作品。社区可以通过官方渠道直接与 Stability AI 分享想法,并在 X、LinkedIn、Instagram 上关注 Stability AI 的最新进展,或加入 Discord 社区。
Stable Diffusion 3.5 的发布不仅是技术上的一次飞跃,也是 AI 图像生成领域的一个重要时刻,它将推动创意表达和视觉媒体的未来发展。
SD3.5下载地址:
虽然模型权重现在可以在 Hugging Face 上进行自托管,但您还可以通过以下平台访问模型