【SD】深入理解Stable Diffusion与ComfyUI的使用

2024-07-22 04:52:04
开发
17

【SD】深入理解Stable Diffusion与ComfyUI的使用

在这里插入图片描述

1. Stable Diffusion（SD）原理概述

整体结构：SD不是单一模型，而是由三个模型组成，包括文本编码器（Clip）、2. 生成模型（unit）、变分自编码器（VAE）。
输入输出：最基础的输入为文本和随机变量（Latent Vector），输出为图片。

2. 各部件详解

文本编码器（Clip）

专门为SD设计的，采用transformer结构。
训练步骤包括：
限制性预训练：使用图片和文本描述数据集，训练文本编码器和图片编码器，使输出向量尽可能接近。
进一步训练：使用物体名称和描述，训练文本编码器解码出图片含义。

生成模型（unit）

加噪降噪过程：通过VAE的encoder将图片转换成与Latent Vector相同大小的格式，然后逐步加噪并降噪，生成中间结果。

变分自编码器（VAE）

包括编码器和解码器，将图片编码成较小格式，再解码回原大小，训练目标是最小化原始图片与解码结果的差异。
利用VAE可以从噪声中生成图片，即输入随机噪声至解码器，生成图片。

3. SD的工作流程

文本通过文本编码器转换为向量。
向量与随机变量结合，控制生成内容的随机性。
使用unit进行加噪降噪，生成中间结果。
中间结果通过VAE解码器还原成最终图片。

4. ComfyUI与SD的结合

ComfyUI用于低显存生成图片，但具体如何结合SD的原理和ComfyUI的操作未在文本中详述。

5. 总结

SD通过三个模型的协同工作，实现了文本到图片的生成。
Clip作为文本编码器，负责将文本转换为向量。
Unit负责生成过程的加噪和降噪，VAE则用于图片的编码和解码，最终还原成清晰图片。
整个流程涉及文本处理、随机性控制、图片生成和还原，是一个复杂但高效的生成系统。

原文地址:https://blog.csdn.net/Darlingqiang/article/details/140597080 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1815127626482847744.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-22 04:52:04 66 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-22 04:52:04 56 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-22 04:52:04 49 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-22 04:52:04 53 阅读
NoSQL之Redis非关系型数据库

2024-07-22 04:52:04 58 阅读
2024.7.22 作业

2024-07-22 04:52:04 60 阅读
GDB调试正在运行的程序

2024-07-22 04:52:04 44 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-22 04:52:04 48 阅读
在Django里面运行非项目文件

2024-07-22 04:52:04 42 阅读
SSD基本架构与工作原理

2024-07-22 04:52:04 49 阅读
在誉天学习完HCIE就业吗？

2024-07-22 04:52:04 57 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-22 04:52:04 46 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-22 04:52:04 50 阅读
go 协程池的实现

2024-07-22 04:52:04 47 阅读
Shell脚本循环语句与函数

2024-07-22 04:52:04 49 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-22 04:52:04 54 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-22 04:52:04 49 阅读
四大引用——强软弱虚

2024-07-22 04:52:04 53 阅读
Python语言-面向对象

2024-07-22 04:52:04 53 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-22 04:52:04 49 阅读
网站安全-CDN篇

2024-07-22 04:52:04 50 阅读

热门阅读

c语言（7.21）

2024-07-22 04:52:04 15 阅读
康康近期的慢SQL（oracle vs 达梦）

2024-07-22 04:52:04 16 阅读
填挖方分析

2024-07-22 04:52:04 16 阅读
论文阅读：Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting

2024-07-22 04:52:04 14 阅读
USB转多路UART - USB 基础

2024-07-22 04:52:04 16 阅读
Eureka注册中心

2024-07-22 04:52:04 15 阅读
redis的分片集群（仅供自己参考）

2024-07-22 04:52:04 15 阅读
电商数据集成之电商商品信息采集系统架构设计||电商API接口

2024-07-22 04:52:04 19 阅读
Log4J reminder

2024-07-22 04:52:04 13 阅读
探索未知：无监督目标检测的前沿之旅

2024-07-22 04:52:04 17 阅读
VBA实例-从Excel整理数据到Word

2024-07-22 04:52:04 17 阅读
conda：导出与创建环境快照

2024-07-22 04:52:04 18 阅读
C语言中的运算符（二）

2024-07-22 04:52:04 20 阅读
React二组件进阶

2024-07-22 04:52:04 18 阅读
docker资源配额

2024-07-22 04:52:04 16 阅读
vue3【详解】跨组件通信 -- 依赖注入 provide inject

2024-07-22 04:52:04 16 阅读
linux搭建redis cluster集群

2024-07-22 04:52:04 13 阅读
分类预测 | Matlab实现BES-LSSVM秃鹰算法优化最小二乘支持向量机多特征分类预测/故障诊断

2024-07-22 04:52:04 18 阅读
视频点播项目

2024-07-22 04:52:04 19 阅读
推送Prometheus数据到N9E并通过Grafana展示

2024-07-22 04:52:04 16 阅读
centos/rocky容器中安装xfce、xrdp记录

2024-07-22 04:52:04 16 阅读
【Python】深入理解 Python 的 repr 方法

2024-07-22 04:52:04 14 阅读
【2024德国签证】留学面签问题汇总

2024-07-22 04:52:04 25 阅读
19-8 LLM之野望 8 -LLM 评估

2024-07-22 04:52:04 22 阅读
【Linux Commands】命令分类整理-命令搜索引擎-速查手册

2024-07-22 04:52:04 17 阅读
第4章 .NET 8.0 ASP.NET Core图书管理系统：项目布局

2024-07-22 04:52:04 15 阅读
[经验] 孙叔敖举于海,百里奚举于市的翻译 #学习方法#学习方法#微信

2024-07-22 04:52:04 13 阅读
为了zoom

2024-07-22 04:52:04 23 阅读
vue中hash和history的区别？

2024-07-22 04:52:04 15 阅读
使用 KerasNLP 从头开始生成 GPT 文本

2024-07-22 04:52:04 14 阅读