在当今科技与艺术深度交融的时代浪潮中,Stable Diffusion 以其引入的开源图像模型,使得 AI 绘画模型的训练效率得以大幅提升,如同一股强劲的东风,推动着整个行业迅猛发展。开源图像模型打破了传统 AI 绘画模型训练的诸多局限,吸引着无数创作者满怀热忱地投身其中,共同开启了一场如梦如幻的艺术创作革命,携手描绘出一幅绚丽多彩、充满无限可能的艺术新画卷。
对于那些勇于探索的创作者而言,手动搭建 Stable Diffusion 环境是一场充满挑战与惊喜的旅程。首先,要精心安装 Python 3.10,记得在安装过程中勾选 “Add Python to PATH”,这一步如同为后续的操作铺设基石,确保系统能够准确识别 Python 路径。与此同时,Git 的安装也不可或缺,它就像是一位得力的助手,帮助我们从 Github 上获取所需的资源。当准备工作就绪,在命令行中输入神秘的指令 “git clone
https://github.com/AUTOMATIC1111/stable-diffusion-webui.git”(记得将 PATH_TO_CLONE 替换为自己心仪的下载目录哦),就仿佛在向数字宇宙发出召唤,将 Stable Diffusion 的核心代码下载到本地。模型是创作的灵魂,前往 Civitai 等神秘宝藏之地,寻觅标注有 CKPT 的模型,将其小心翼翼地放置于 models/Stable-diffusion 目录中,等待着它们在创作中绽放光彩。一切准备妥当后,双击运行 webui-user.bat,接下来便是耐心的等待,就像等待一颗种子慢慢发芽。脚本会自动下载各种依赖,仿佛在为即将开启的艺术之旅准备充足的物资。当程序输出一个类似
http://127.0.0.1:7860/的地址时,就如同找到了通往梦幻之境的入口,在浏览器中输入这个链接,一场奇妙的创作之旅即将拉开帷幕。
如果你渴望更快地踏入这个充满奇幻色彩的创作世界,整合包无疑是一条便捷的通道。独立研究员的空间下时常更新的整合包,以及秋叶那备受赞誉的启动器,都是不错的选择。只需简单解压,就能立即开启探索之旅,如同打开了一个装满创意工具的魔法盒子,瞬间将你带入 Stable Diffusion 的奇妙领域。
在 Stable Diffusion 的创作宇宙中,模型宛如星辰,各自散发着独特的光芒,是塑造图像风格的关键所在。当你踏入 webui 界面的那一刻,左上角的模型选择区域就像是一个通往不同艺术风格世界的传送门。这里汇聚了众多风格迥异的模型,每一个模型都承载着无数的创意可能性。比如,有的模型如同写实绘画大师,擅长以细腻入微的笔触还原真实世界的每一个细节,光影交错间,仿佛能让你触摸到画面中的物体;而另一些模型则像是动漫世界的魔法师,能够轻松地将你的想象转化为充满奇幻色彩、生动活泼的动漫风格图像,角色们在画面中跃动,仿佛拥有自己的生命。创作者就像一位艺术鉴赏家,根据心中所构思的画面风格,在这个模型宝库中精心挑选出最契合的那一颗 “星辰”,为整个创作奠定坚实的基础。
提示词,恰似一根神奇的魔杖,它能将创作者脑海中的灵感具象化,引导模型生成令人惊叹的图像。这不仅仅是简单的文字组合,更是一场与模型心灵沟通的奇妙仪式。创作者可以运用丰富多样的元素,如自然流畅的自然语言,用生动形象的句子描绘出心中理想图像的模样;精准简洁的单词标签,如同一个个神秘的密码,解锁模型中的特定元素;甚至是充满趣味的 Emoji 表情符号,以简洁而富有表现力的方式传达情感和氛围。例如,当你输入 “masterpiece, best quality, ultra-detailed” 时,就像是在向模型下达一道追求卓越品质和极致细节的指令;“1girl, white hair, golden eyes” 则如同一幅人物肖像的轮廓草图,为模型勾勒出画面主角的基本特征;“serene expression, looking at viewer” 更像是赋予角色灵魂的点睛之笔,让她在画面中拥有生动的表情和与观众互动的眼神。同时,巧妙运用语法和权重调整技巧,能让提示词的魔力发挥到极致。通过 “(word)” 这样的语法,创作者可以将某个关键词的权重提升,使其在图像生成过程中发挥更大的影响力;而 “[word]” 则能适当降低权重,实现更精准的控制。不仅如此,Prompt Editing 功能就像时间魔法,能让 AI 在创作过程中的不同阶段根据设定的规则改变图像内容,仿佛画面在时间的长河中逐渐演变,为创作增添了无尽的变化和惊喜。
- 采样方法与步数:多样选择定乾坤
采样方法如同绘画中的笔触技巧,不同的采样器会给图像带来截然不同的效果。Euler a 采样器宛如一位灵动的艺术家,以较少的步数就能创造出丰富多样的画面效果,每一次尝试都可能带来意想不到的惊喜;UniPC 采样器则更像是一位严谨的工匠,在保证效果的同时,以高效的速度为创作者呈现出高质量的图像,尤其在表现平面和卡通风格时,更是得心应手。而采样步数则决定了图像从模糊到清晰的演进过程,就像雕刻家手中的刻刀,每增加一步,都在雕琢出更精确、更细腻的图像细节。一般来说,20 - 30 步的设置能够在效果和效率之间找到一个微妙的平衡,既不会让等待时间过长,又能确保图像达到令人满意的质量。
- CFG Scale:平衡之术控风格
CFG Scale 参数犹如天平上的砝码,它巧妙地控制着图像与提示词之间的匹配程度。当你将这个值调高时,就像是在向模型强调你的创意意图,模型会更加努力地贴近你的提示词,生成的图像会更加忠实于你的想象,但也可能会因此牺牲一些图像的自然度,出现线条略显粗犷、过度锐化的情况;相反,较低的 CFG Scale 值则给予模型更多的自由发挥空间,图像会更加自然流畅,但可能与提示词的契合度会稍有降低。在 7 - 11 这个黄金范围内调整,创作者就像一位经验丰富的调酒师,能够调出一杯口感恰到好处的创意鸡尾酒,在保证图像质量的同时,实现与提示词的完美匹配。
- 生成批次与数量:性能与创意的权衡
生成批次和每批数量的设置,就像是一场创意与性能之间的舞蹈。批次决定了一次创作过程中能够同时孕育出多少组图像创意,每批数量则影响着系统资源的分配。如果你的设备性能强劲,适当增加每批数量就像是打开了创意的洪水闸门,能够一次性获取更多的图像成果,但这也需要消耗更多的显存资源作为代价。若显存有限,谨慎选择每批数量,保持为 1 或许是一个明智的选择,如同在狭窄的舞台上精心编排独舞,确保每一个动作都精准无误。合理的设置不仅能提高创作效率,还能让设备在稳定运行的同时,充分释放创意的能量。
- 尺寸与种子:画布与随机性的抉择
图像尺寸如同创作的画布大小,它直接影响着画面的构图和细节展现。选择合适的尺寸就像是为故事选择一个合适的舞台,过小的尺寸可能会让画面显得局促,而过大的尺寸则可能导致图像出现一些意想不到的瑕疵,尤其是在 1024 之上的尺寸,可能会出现多个主体争夺画面焦点或者细节丢失的情况。因此,小尺寸分辨率搭配高清修复功能,就像是给图像穿上了一件精致的魔法外衣,既能保留丰富的细节,又能实现高清大图的效果。而种子,则是隐藏在图像生成背后的神秘力量,它决定了模型在创作过程中的所有随机性。相同的种子在相同的参数设置下,就像一把复制创意的钥匙,能够让创作者重现之前的精彩画面,为创作过程增添了一份可预测性和探索性。
- 高清修复与面部修复:图像优化的魔法术
高清修复功能就像是一位神奇的画师,在图像生成的最后阶段,它施展魔法,将原本可能混沌模糊的图像通过放大算法提升到一个全新的清晰度境界。在这个过程中,不同的放大算法如同不同的魔法咒语,Latent 算法在许多情况下表现出色,但在重绘幅度小于 0.5 时可能会略显乏力;而 ESRGAN_4×、SwinR 4× 则在处理小幅度重绘时展现出强大的魔力,能够让图像在放大后依然保持清晰锐利。面部修复功能则像是一位面部美容专家,专注于优化画面中的人物面部细节,让人物更加生动逼真。然而,就像任何魔法都有其适用范围一样,非写实风格的人物在使用面部修复时可能会出现面部崩坏的情况,所以创作者需要谨慎使用,如同在魔法森林中选择正确的路径。
ControlNet 的出现,宛如为创作者们赋予了一双能够精准操控图像生成的无形之手。当启用 ControlNet 后,创作者仿佛成为了一位指挥家,通过调整预处理器、权重、Guidance strength 等参数,巧妙地指挥着线稿、动作识别、深度信息等元素,共同奏响一曲和谐的图像生成交响乐。例如,canny 预处理器如同一位敏锐的边缘探测者,能够精准地识别出图像中的边缘信息,为创作勾勒出清晰的轮廓;depth 预处理器则像一位洞察深邃的探险家,深入挖掘图像的深度信息,为画面增添层次感。不同的预处理器和模型相互搭配,就像不同乐器的组合,能够创造出千变万化、令人惊叹的效果,让创作者的想象力得到前所未有的精准呈现。
在 Stable Diffusion 的创意世界里,模型的管理如同整理一座宝藏库,需要遵循一定的规则。不同类型的模型就像不同种类的宝石,各自有着专属的存放位置。大模型(ckpt)如同璀璨的明珠,被放置在 models/Stable-diffusion 文件夹中,静静等待着被启用;VAE 模型则像是为明珠增添光彩的神秘配饰,可放置在 models/Stable-diffusion 或 models/VAE 目录,在 webui 的设置栏目中选择后,便能为图像带来独特的色彩和质感;Lora/LoHA/LoCon 模型宛如小巧而强大的魔法宝石,放入 extensions/sd-webui-additional-networks/models/lora 目录后,在创作中能够为图像注入额外的魔力;Embedding 模型则更像是隐藏着创意密码的符文石,放入 embeddings 目录,在提示词中加入对应的关键词,就能解锁其独特的效果。这样井然有序的分类存放,不仅方便了模型的管理,更确保了在创作过程中能够迅速找到并启用所需的模型,让创意的流淌不受阻碍。
Stable Diffusion 的插件扩展功能,就像是为创作者们提供了一双双能够翱翔于创意天空的翅膀。在 webui 的 “扩展” 选项卡中,仿佛隐藏着一个充满无限可能的魔法商店,各种插件琳琅满目。novelai-2-local-pronpt 插件像是一位故事讲述者,为创作带来更多富有创意的提示词生成方式;openOutpaint-webUI-extension 插件则如同一位绘画魔法师,能够将图像扩展到意想不到的边界;openpose-editor 插件宛如一位姿态塑造大师,帮助创作者轻松调整人物姿势。这些插件如同繁星点点,各自散发着独特的光芒,为创作过程增添了丰富多样的功能和乐趣,让创作者能够突破常规,探索更广阔的创意空间。
- 环境搭建:搭建舞台启征程
以 kohya_ss 为例,它为创作者们搭建了一个便捷的训练舞台,提供了在 Windows 操作系统下的 GUI 训练面板。这个面板就像是一个充满科技感的控制台,上面布满了各种神秘的按钮和参数设置,等待着创作者去探索和调整。如果创作者渴望在 Linux 系统上进行训练并且希望拥有图形界面,也有相应的解决方案,如参考 Github-P2Enjoy/kohya_ss-docker 项目,它就像是一座桥梁,将 kohya_ss 的训练功能成功移植到 Linux 系统上,为不同系统的创作者们打开了模型训练的大门。
- 训练流程:精雕细琢育模型
- 准备训练集:素材收集定基石
训练集是模型成长的基石,如同精心挑选的种子,决定了最终的收获。图片的质量至关重要,高清的图像就像清晰的记忆,能够为模型提供丰富的细节信息;风格统一且内容多样则像是一场丰富多彩的人生经历,让模型能够学习到不同情境下的特征。例如,在训练一个人物模型时,不仅要有正面的照片,还要有侧面、背面以及不同动作、表情的照片,就像记录一个人在生活中的各种姿态。样本数量也需要恰到好处,过少的样本会让模型营养不良,难以学到有效的特征,导致欠拟合;过多的样本则可能让模型陷入细节的迷宫,过度关注个别特征而失去了泛化能力,造成过拟合。
- 图片裁剪:裁剪塑形展新颜
将训练集图片裁剪为相同尺寸,就像是为一群即将参加比赛的选手统一着装,确保他们在模型的眼中都是平等对待的。可以在 SD webui 界面中使用自动裁剪功能,这就像一位智能裁缝,迅速而精准地为图片量体裁衣;当然,手动裁切也给予创作者更多的个性化空间,如同亲手为图片设计独特的造型。512*512 的尺寸是常用的选择,它在保证一定细节的同时,也能有效控制显存的占用,就像在有限的舞台上展现最精彩的表演。
- 图片打标:标签赋予启智慧
图片打标是为图像注入灵魂的过程,就像给每一幅画起一个富有深意的名字。在训练环境页面,创作者可以使用各种打标器为图片添加标签。不同的打标器如同不同的翻译官,对图片有着不同的理解和表达方式。例如,Stable Diffusion webui - 训练图像预处理中的打标器可能更注重图像的整体场景和基本元素,而 BLIP 打标器则更擅长捕捉图像中的人物动作和情感。在比较不同打标器的效果后,选择最准确的打标方式,然后对生成的关键词进行合并与优化,就像整理一本杂乱的词典,让关键词更加精炼、准确,为模型提供更清晰的学习目标。
- 正则化:规则引导促泛化
正则化是引导模型走向泛化之路的指南针,它通过降低模型的复杂性,如同修剪一棵繁茂的大树,去除不必要的枝叶,让模型更加专注于核心特征。在训练集中,每张图片都可以分解为训练目标和其他要素,正则化标签需要与训练集中的 Class 相对应,就像给模型提供了一份清晰的学习大纲,告诉它哪些是重点知识。正则化不是一成不变的规则,创作者可以根据训练集的实际情况和训练目的灵活调整,确保模型在学习过程中既能掌握核心要点,又能具备广泛的适应性。
- 文件路径组织:路径规划便管理
在训练前,合理规划文件路径就像绘制一张清晰的地图,让模型在学习过程中不会迷失方向。例如,当训练目标是一群女孩时,按照特定的命名规则组织文件路径,如 “train_girls ----o10_sls 1girl----010_cpc 1girl”,这样的路径就像一个详细的地址簿,清晰地记录了每个女孩的训练数据位置。同时,正则化内容也有其专属的存放路径,如 “reg_girls ---1_1girl”,确保数据的管理有条不紊,为训练过程提供高效的支持。
- 训练参数设置:精细调控铸精品
训练参数的设置是一场精细的艺术调控,每一个参数都像是音乐中的一个音符,共同奏响模型训练的乐章。底模的选择如同选择乐曲的基调,决定了模型的基础风格和特征;最大分辨率则设定了图像的舞台大小,影响着模型对细节的捕捉能力;Epoch 是模型学习的轮次,就像反复练习一首曲子,使其更加熟练;Batch size 控制着每次学习的数据量,如同一次排练中的参与人数,影响着学习的效率;学习率决定了模型学习的步长,如同舞者的舞步大小,太大容易摔倒(模型不收敛),太小则进展缓慢;学习率调度器就像一位节奏大师,根据训练的节奏动态调整学习率;优化器则是不断调整模型舞步的教练,确保模型在学习过程中不断优化自己的表现;Text Encoder 与 Unet 的学习率设置则分别影响着模型对文字和图像的理解能力,如同调整乐队中不同乐器的音量,使其和谐共鸣。
Stable Diffusion 开源图像模型不仅仅是一款强大的创作工具,它更像是一颗投入艺术之海的石子,激起了千层浪,引发了艺术创作领域的深刻变革。它打破了传统艺术创作的边界,让艺术不再是少数人的专利,无论是专业画师寻求突破传统表现方式的新途径,还是普通爱好者怀揣着对艺术的热爱渴望探索未知的创意空间,都能在这个平台上找到属于自己的舞台。它以其前所未有的易用性和强大功能,降低了创作门槛,激发了人们内心深处的创造力,如同点亮了无数盏创意的明灯,照亮了人们前行的道路。
随着技术的不断发展和社区的持续壮大,Stable Diffusion 的未来充满了无限的可能性。我们有理由相信,在广大创作者的共同努力下,它将不断进化和完善,催生出更多令人惊叹的艺术作品,推动 AI 绘画技术在更多领域的应用和创新。