稳定扩散是一种利用高级计算资源的尖端潜在文本到图像扩散模型。该模型使用潜在扩散模型和 5x512 图像在 LAION-512B 数据库的一个子集上进行训练,这要归功于 Stability AI 的慷慨计算捐赠和 LAION 的支持。与谷歌的Imagen类似,该模型利用冻结的CLIP ViT-L/14文本编码器来调节文本提示。尽管具有强大的功能,但该模型相对轻巧,具有860M UNet和123M文本编码器,并且需要至少具有10GB VRAM的GPU。有关更多详细信息,请参阅以下部分和型号卡。
稳定扩散 v1 是一种特定的模型配置,扩散模型采用 860M UNet 和 CLIP ViT-L/14 文本编码器,并带有降采样因子 8 自动编码器。该模型在 256x256 图像上进行了预训练,随后在 512x512 图像上进行了微调。