Likecoin验证人，关注科技、自然、阅读、电影及家庭教育

Stable Diffusion XL 1.0初体验，效果如何？

2023 年 7 月 29 日

Stable Diffusion XL 1.0版本，江湖传说可以媲美Midjourney。期待已久。

前段时间，XL先后放出泄露版，以及版本号为0.9的测试版，但是还只能在ComfyUI 中运行，暂不支持stable-diffusion-webui，加上前些日子过于忙碌，一直没有精力折腾。

7月26日，Stability AI在几次跳票后，终于发布了Stable Diffusion XL 1.0版本，相比于之前的0.9版本，它在颜色、对比度、阴影和光照方面有了明显的改进，同时也能够生成更高分辨率（1M像素）和更多纵横比的图像。Stable Diffusion XL 1.0还支持图像修复、扩展和变换等功能，以及在图像中生成文本的能力。

AUTOMATIC1111 也快速跟进，升级到了1.5版，终于支持XL 模型。而秋叶大佬的启动器也同步更新，今天赶上周末，总算有点时间可以折腾下Stable diffusion，下载模型，升级启动器，一切简单而顺利，没有学习成本。

但是生成图片的时候，总是在最后一刻崩掉，变成了马赛克效果。无奈，只能去网上查找问题，看了一些网友的讨论，感觉是没有安装对应的VAE模型的缘故。

我一直没搞清楚VAE模型到底什么意思，有什么作用，趁这个问题，问了下New Bing，下面是它给我的答案：

VAE是变分自编码器的缩写，它是神经网络模型的一部分，它可以将图像编码和解码到和从一个较小的隐空间，从而加快计算速度。 VAE是Stable Diffusion 1.4或1.5模型的一个部分更新，它可以使眼睛的渲染更好。

老实说，还没没搞懂，不知所云，我怀疑Bing找的资料不对，人啊，还是不能过于依赖AI。不过，先不管了，我下载VAE，问题解决。

为了检验XL的能力是否被夸大，我让他生成了一组人物肖像进行测试。提示词如下，

[Name], (looking at viewer:1.2), perfect face,busy street scene, bright daylight,

怎么说呢，在人物肖像上，特别是名人的肖像，表现并不稳定。我用上面这个提示词，生成十位哲学家肖像，亚里士多德、马克思、维特根斯坦还算满意，其他的只能说凑合。整体上比起Midjourney，还有巨大的提升空间。希望后续借助各种LorA模型，可以超越Midjourney。

CC BY-NC-ND 4.0 版权声明

喜欢我的文章吗？
别忘了给点支持与赞赏，让我知道创作的路上有你陪伴。

加载中…

推荐阅读

[生活中的AI]ChatGPT作为运营经理：一个月内从70到500关注者的Medium增…
在AI的时代，我们是否可以让机器人来管理我们的社交媒体账号？
zooman
探索Gen-2：如何生成16秒长的镜头
Runway的Gen-2最近进行了一次深受好评的升级，推出了扩展视频时长的新功能，允许用户生成长达16秒的镜头。
zooman
如何通过ChatGPT的Custom Instructions为您的聊天体验量身定制
在探索聊天机器人的世界中，有没有想过能够像编程一样，为自己的对话体验定制一套“自定义函数”？
zooman
让你这一分钟内生成专业时尚网站的AI神器，设计师的梦想工具
同事策划了一个AI绘画比赛。但是设计师恰好没有时间。我自告奋勇的说，我来吧。
zooman
以理性建设性的心态去做事
早上给同事反馈，他们部门做的有个微信公众号上的贴片广告，感觉效果不是很好。同事回复说，“自己跟执行的同事也提过，不过她们觉得这个广告不会有人真正去关注，就是一个展示。
zooman

发布评论…