Stable Diffusion是一款生成高质量图像的工具,生成的图像还很逼真。本文作者对这款软件的使用方法及功能进行了详细地介绍,希望能帮助到你的工作。 Stable Diffusion是一个文本到图像的潜在扩散模型,这个数据库拥有从互联网上抓取的 58 亿「图像-文本」数据,它可以生成包括人脸在内的任何图像,这些图像可以是逼真的,如相机拍摄的图像,也可以是艺术风格,就像由专业艺术家制作一样。 Prompt内输入的东西就是你所构思的场景,Negative prompt 内输入的就是你不希望在图中包含的。两个输入口只能输入英文半角,词语之间使用半角逗号隔开;一般越靠前权重越高(还是得多试)。 生成高质量图像的快捷方式是反复尝试调节现有描述。灵感收集可以从C站或者Midjourney热图,选择您喜欢的图像,然后学习不同作者的描述特点/方法论。 在寻找灵感收集人像Prompt时需可以注意Lora模型以及对应的Base Model,lora权重一般0.6-0.8(冒号后边)。 Emoji、颜文字 Emoji (💰👨👩🎅👼🍟🍕) 表情符号也是可以使用并且非常准确的。因为 Emoji 只有一个字符,所以在语义准确度上表现良好。关于 emoji 的确切含义,可以参考,同时 Emoji 在构图上有影响。 CFG越小细节越少,CFG越高自由度越多(更飞);通常7-12,更丰富可以12-20,写实(也可以是用ControlNet时越接近原图)可以4-7,通过0.5为步微调。 image2image中Denoising strength是添加噪点的强度。也是类似噪点强度越高,AI的创作空间就越大,出图也就和原图越不相似。一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些。实际执行中,具体的执行步骤为 Denoising strength * Sampling Steps。 随机写一个参数(*-1是随机效果)可以再次使用该参数生成效果进行微调,也就是同一个Seed生成的图一般是一致的。 可以搭配服用,比如controlnet0用某张图的风格style, congrolnet1要处理的图(比如人像),这样生成的图既保持1的人像,又使用0的风格样式。 带 Normal一般用于物体细节,它是法线贴图图像,会一定程度上保留物体内部的细节,比如衬衫褶皱。 在controlnet区域放上需要进行局部调整的图片,点击inapint预设,在需要调整的图片上进行涂抹,并在描述区域写上你的预期效果。 Control Weight:相对于提示给予控制图的强调程度。它类似于提示中的关键字权重,但适用于控制图。对于二维码、文字相关建议数值调整为0.4-0.65。这里数值越大,图案就会越明显,但相对的,文字和图片的融合度也会越差。可以自己多试,比较复杂的文字为了出效果可以调高点,简单的图案可以调低点。 Ending Control Step这个参数建议0.6-0.75,代表着ControlNet什么时候停止介入,**数值越大后面留给模型处理融合的时间就越少,文字融合度就会变差,**数值越小模型介入过早就会破坏已有的结构导致看不清文字。也得多尝试,跟你图案的复杂程度也有关系。 *文字光效或者将二维码合成在衣服上的图最近火遍即刻,看了归藏老师的文章,效果图主要是ControlNet的应用,具体可以见微信公众号。 很喜欢王建硕老师说的「不要把研究AI新闻当成研究AI」,如果有时间可以从最简单的prompt开始学起,真正在业务中去实践,比如效果图光线太暗、背景太花等,这是「需求驱动」的意义,最终需要磨很多次才能有好的呈现。 |