据Stability AI官方新闻稿,他们最近推出了一款名为“Stable Cascade”的全新文生图模型,采用了Würstchen架构,声称能够在消费级硬件上进行简单的训练和微调。
功能与优势
相较于业界熟悉的SDXL,Stable Cascade在性能和内容质量上均有所提升。官方已在GitHub页面上公开了Stable Cascade模型的相关数据,但仅允许非商业用途使用。
工作原理
用户输入文段后,Stable Cascade将相关内容转换为24x24体积的小型数据集合,然后解码这些小型图像数据生成图片,并将其放大为高分辨率图像。这种模块化设计使得对模型的各个方面进行额外训练和微调变得可能。
显存需求与性能比较
Stability AI表示,由于Stable Cascade模型采用了模块化设计,因此推理过程所需的显存较低,仅需要20GB显存即可运行。与Playground v2、SDXL、SDXL Turbo、Würstchen v2等竞品相比,Stable Cascade在提示词对齐和生成的图片细节上表现出色,并且即使是最大的模型,也比Stable Diffusion XL具有更快的推理速度。
鉴于Stable Cascade在架构设计方面的优越性,官方认为它能够在保持高质量输出的同时保持高效的推理速度,成为文生图模型领域的一股新力量。