
Stable Diffusion是一个深度学习模型,用于将文本描述转化为详细图像。它是一种潜在扩散模型,由慕尼黑大学的CompVis研究团体与StabilityAI、LAION等合作开发[1]。该模型主要用于生成图像,可以根据文本描述生成包括人脸在内的各种图像。
技术架构:
Stable Diffusion使用了潜在扩散模型(latent diffusion model; LDM)的变体。它由三个主要部分组成:变分自编码器(VAE)、U-Net和文本编码器。与传统的去噪自编码器不同,Stable Diffusion的VAE将图像转换为低维潜在空间,并在潜在表示上应用高斯噪声的添加和去除过程。这个过程通过一系列的去噪步骤完成,每个步骤都由一个包含ResNet骨干的U-Net架构完成。最后,VAE解码器将潜在表征转换回像素空间,生成最终的输出图像。
应用:
Stable Diffusion可以通过使用提示词来生成新的图像,描述要包含或省略的元素。它还支持重新绘制现有的图像,根据提示词中的描述添加新元素。此外,该模型还允许在现有图像中进行内补绘制和外补绘制,以部分更改图像。
使用和要求:
Stable Diffusion的源代码和模型权重已在GitHub和Hugging Face上公开发布,可以在配备适度GPU的电脑硬件上运行。它建议在10GB以上的显存下运行,但显存较少的用户可以选择以float16的精度加载权重,以降低显存使用率。
数据统计
数据评估
本站幻导航网提供的Stable Diffusion都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由幻导航网实际控制,在2024年3月7日 下午5:39收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,幻导航网不承担任何责任。
相关导航


通义万相

LiblibAI

Picso

文心一格

网易AI创意工坊

堆友
