在当今这个技术飞速发展的时代,人工智能(AI)领域不断涌现出令人惊叹的创新。其中,文本到图像AI技术尤为引人注目,它能够根据文本提示生成图像。Stable Diffusion作为这一领域的最新成果,以其开源的特性,为公众提供了一个免费且功能强大的工具。本文将带深入了解Stable Diffusion的工作原理,以及如何利用它来创作出令人惊叹的图像作品。
Stable Diffusion是由CompVis、Stability AI和LAION的工程师和研究人员共同开发的文本到图像模型。它基于Latent Diffusion模型,尽管本文不深入探讨其理论细节,但值得关注的是,Stable Diffusion是近期发布中最受期待的模型之一。其生成的图像质量与Open AI的Dall-E 2相媲美,甚至在某些方面更胜一筹。更重要的是,Stable Diffusion的代码和模型权重已经开源,这意味着任何人都可以免费使用它。
使用Stable Diffusion AI的过程相对简单。首先,需要在Hugging Face上注册或登录,这是创建和访问即将使用的模型的平台。登录后,接受使用模型的条款和条件。接下来,获取访问令牌,这将用于后续的Jupyter笔记本中。登录后,进入账户设置,创建一个新的访问令牌,并复制生成的令牌以备后用。
然后,需要登录到Google Colab,并从提供的链接访问Stable Diffusion笔记本。由于个人电脑可能没有足够的计算能力来运行这个模型,因此连接到托管的运行时环境是更好的选择。连接后,可以通过运行所有单元格来开始使用模型。在第四个单元格中,将有机会输入之前复制的访问令牌,并等待“登录成功”的消息。一旦完成,就可以开始使用模型了,笔记本非常直观,可以尝试各种提示。
from torch import autocast
prompt = "宇航员骑马的照片。"
with autocast("cuda"):
image = pipe(prompt)["sample"][0] # image here is in [PIL format](https://pillow.readthedocs.io/en/stable/)
# 现在,要显示图像,可以保存它,例如:
image.save(f"astronaut_rides_horse.png")
# 或者如果在google colab,可以直接显示它
image
以上代码将生成一个宇航员骑马的图像,展示了Stable Diffusion的强大功能。
尽管到目前为止一切看起来都很简单,但当尝试给出详细的提示时,会发现这既困难又耗时。没有经过大量的试错,很难得到一个完美的提示。此外,需要对艺术界、艺术家和不同风格有深入的了解,才能给出好的提示。真正的艺术在于知道如何告诉计算机如何绘画。幸运的是,有很多资源可以帮助理解这一点。有一个名为Lexica的提示数据库,可以访问社区生成的图像及其提示。
花费了数小时尝试不同的提示,并观察相应的生成图像。以下是学到的一些心得:
- 从整体概念开始,然后进一步细化细节。例如,可以从“草地中间的黑色桌子”这样的提示开始,然后给出桌子形状、草地颜色、天气等更多细节。
- 使用多个形容词,如“复杂”、“超现实”和“异世界”,以增强图像细节。
- 可以给出风格术语,如“巴洛克”、“中世纪风格”、“Deviantart”,甚至是艺术家如“达芬奇”、“毕加索”等。AI能够理解并甚至融合多种风格和艺术家!
- 给出如4K、8K图像质量、高清等细节,以获得更详细的图像。
- 指定照明条件,如“自然照明”、“黑暗氛围”、“反乌托邦天空”等,以给图像带来更多的感觉。
- 确保不要给出成人导向或不适宜工作的提示;在这种情况下,它将标记内容为不适宜,并生成一个黑色图像。
根据所学创建了一些图像提示(以下所有图像均由生成):
- “Greg Rutkowski的概念艺术,未来汽车,高科技城市,可怕,反乌托邦氛围,令人恐惧和毛骨悚然,科幻,高度详细,数字绘画,艺术站点,概念艺术,平滑,锐利焦点插图,艺术站点HQ”
- “低角度宽镜头,古代城市那烂陀,图书馆,绿洲,被苔藓覆盖的寺庙,草地,亚热带,插图,夏天,夜晚,星空,完美阴影,柔和绘画,由Krenz Cushart和Wenjun Lin创作”
- “机械概念草图,祖父钟,复杂机制,复杂的带有行星系统的表盘,Mitchell Mohrhauser,8k照片写实,电影照明,高清,高细节,戏剧性,黑暗氛围,艺术站点趋势”
- “奇妙,恐怖的外星行星景观超详细3D matte绘画照片艺术由Moebius、Zdzisław Beksinski、Jakub Rozalski、Nekro创作”
- 强大的文本到图像生成器Stable Diffusion的概览。
- 它的工作原理基础。
- 如何设置Jupyter笔记本并自行生成图像的实用步骤。
- 创建提示的重要性,以及一些实用示例!
- 文本到图像AI在技术世界中已经取得了飞跃性的进步。无论是Stable Diffusion、Dall-E 2还是Mid journey,发现它们都能快速根据提示生成令人敬畏的图像!
- 从超现实景观或令人敬畏的角色——没有什么是它生成图像的能力所不能及的。这些可以用于视频游戏甚至电影的灵感。
- 即便如此,生成图像并非易事。人们需要了解如何正确设置提示。
- 图像并不完美,尤其是在渲染文本或人们的手时。随着更多训练数据的可用,这将随着时间的推移而改进。
- 市面上大多数AI图像生成器都非常昂贵!