
上QQ阅读APP看书,第一时间看更新
1.2.4 引爆网络:基于CLIP的多模态图像生成
CLIP是连接文本和图像的模型,旨在将同一语义的文字和图片转换到同一个隐空间中,例如文字“一个苹果”和图片“一个苹果”。正是由于这项技术和扩散模型的结合,才引起基于文字引导的文字生成图像扩散模型在图像生成领域的彻底爆发,例如OpenAI的GLIDE、DALL-E、DALL-E 2(基于DALL- E 2生成的图像如图1-5所示),Google的Imagen以及开源的Stable Diffusion(Stable Diffusion v2扩散模型的主页如图1-6所示)等,优秀的文字生成图像扩散模型层出不穷,给我们带来无尽的惊喜。

图1-5 基于DALL-E 2生成的“拿着奶酪的猫”

图1-6 Hugging Face的Stable Diffusion v2扩散模型的主页