AIGC笔记--Stable Diffusion源码剖析之FrozenCLIPEmbedder

2024-06-06 21:42:07
开发
35

1--前言

以论文《High-Resolution Image Synthesis with Latent Diffusion Models》开源的项目为例，剖析Stable Diffusion经典组成部分，巩固学习加深印象。

2--FrozenCLIPEmbedder

在默认提供的 txt2img.py 中，使用固定权重的 CLIP 模型来将文本条件编码成Embedding，源代码如下：

class FrozenCLIPEmbedder(AbstractEncoder):
    """Uses the CLIP transformer encoder for text (from Hugging Face)"""
    def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77):
        super().__init__()
        self.tokenizer = CLIPTokenizer.from_pretrained(version)
        self.transformer = CLIPTextModel.from_pretrained(version)
        self.device = device
        self.max_length = max_length
        self.freeze()

    def freeze(self):
        self.transformer = self.transformer.eval()
        for param in self.parameters():
            param.requires_grad = False

    def forward(self, text):
        batch_encoding = self.tokenizer(text, truncation=True, max_length=self.max_length, return_length=True,
                                        return_overflowing_tokens=False, padding="max_length", return_tensors="pt")
        tokens = batch_encoding["input_ids"].to(self.device)
        outputs = self.transformer(input_ids=tokens)

        z = outputs.last_hidden_state
        return z

    def encode(self, text):
        return self(text)

在具体使用中，会利用上述代码生成 无条件Embedding 和 有条件embedding，用于 Classifier-Free Diffusion Guidance 来预测无条件噪声和有条件噪声。

原文地址:https://blog.csdn.net/weixin_43863869/article/details/139509060 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1798711971382693888.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

AIGC笔记--Stable Diffusion源码剖析之FrozenCLIPEmbedder

2024-06-06 21:42:07 36 阅读
AIGC笔记--Stable Diffusion源码剖析之UNetModel

2024-06-06 21:42:07 22 阅读
JVM源码剖析之registerNatives方法

2024-06-06 21:42:07 55 阅读
STL 源码剖析

2024-06-06 21:42:07 76 阅读
HashMap源码剖析

2024-06-06 21:42:07 39 阅读
SpringMVC 源码剖析

2024-06-06 21:42:07 24 阅读
STL源码剖析笔记——仿函数（函数对象）

2024-06-06 21:42:07 61 阅读
JVM源码剖析之信号处理机制

2024-06-06 21:42:07 41 阅读
设计模式之框架源码剖析（实战+图解）

2024-06-06 21:42:07 47 阅读
GDAL源码剖析（十一）之OGR投影说明

2024-06-06 21:42:07 34 阅读

最近更新

题解 - 序列

2024-06-06 21:42:07 122 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-06-06 21:42:07 109 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-06-06 21:42:07 98 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-06-06 21:42:07 106 阅读
NoSQL之Redis非关系型数据库

2024-06-06 21:42:07 108 阅读
2024.7.22 作业

2024-06-06 21:42:07 106 阅读
GDB调试正在运行的程序

2024-06-06 21:42:07 87 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-06-06 21:42:07 90 阅读
在Django里面运行非项目文件

2024-06-06 21:42:07 87 阅读
SSD基本架构与工作原理

2024-06-06 21:42:07 94 阅读
在誉天学习完HCIE就业吗？

2024-06-06 21:42:07 98 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-06-06 21:42:07 90 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-06-06 21:42:07 92 阅读
go 协程池的实现

2024-06-06 21:42:07 93 阅读
Shell脚本循环语句与函数

2024-06-06 21:42:07 96 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-06-06 21:42:07 98 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-06-06 21:42:07 90 阅读
四大引用——强软弱虚

2024-06-06 21:42:07 92 阅读
Python语言-面向对象

2024-06-06 21:42:07 96 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-06-06 21:42:07 91 阅读
网站安全-CDN篇

2024-06-06 21:42:07 93 阅读

热门阅读

MySQL嵌套，别名，分组查询

2024-06-06 21:42:07 30 阅读
ORACLE创建dblink

2024-06-06 21:42:07 34 阅读
acm模式练习

2024-06-06 21:42:07 28 阅读
Redis：Redis的数据类型介绍

2024-06-06 21:42:07 36 阅读
iOS ------ 多线程 GCD

2024-06-06 21:42:07 22 阅读
进程的优先级

2024-06-06 21:42:07 30 阅读
c++实现机房预约管理系统

2024-06-06 21:42:07 29 阅读
ARM32开发——库与包

2024-06-06 21:42:07 29 阅读
Docker安全配置

2024-06-06 21:42:07 26 阅读
ARM Linux 驱动开发学习之字符设备驱动开发

2024-06-06 21:42:07 24 阅读
光猫、路由器的路由模式、桥接模式、拨号上网

2024-06-06 21:42:07 38 阅读
【Spring Cloud】微服务日志收集系统-ELK+Kafka

2024-06-06 21:42:07 33 阅读
docker命令 docker ps -l （latest）命令在 Docker 中用于列出最近一次创建的容器

2024-06-06 21:42:07 34 阅读
CMPSC473 malloclab: writing a dynamic storage allocator

2024-06-06 21:42:07 27 阅读
Docker 基础使用（2）镜像与容器

2024-06-06 21:42:07 31 阅读
基于Django的博客系统之增加类别导航栏（六）

2024-06-06 21:42:07 31 阅读
揭秘《庆余年算法番外篇》续集：范闲通过最大似然法推理找到火烧史家镇的凶手

2024-06-06 21:42:07 34 阅读
Vscode发生鼠标悬停正在加载、无法跳转和提示词的问题

2024-06-06 21:42:07 42 阅读
除了诺贝尔奖的红利，Pasqal 还有哪些实力？

2024-06-06 21:42:07 31 阅读
LCTF 2018 bestphp‘s revenge

2024-06-06 21:42:07 32 阅读
AzSubEnum：针对Azure服务的子域名枚举查询工具

2024-06-06 21:42:07 31 阅读
Flask的模块化实践

2024-06-06 21:42:07 24 阅读
深入了解 C 语言 Bug

2024-06-06 21:42:07 25 阅读
Flask启动重复注册schedule问题

2024-06-06 21:42:07 29 阅读
【Pytorch】深入Pytorch模型的训练、log、可视化

2024-06-06 21:42:07 32 阅读
SQL Developer管理RESTful 服务

2024-06-06 21:42:07 34 阅读
LeetCode-239.滑动窗口最大值

2024-06-06 21:42:07 26 阅读
大语言模型 (LLM) 窥探未来

2024-06-06 21:42:07 19 阅读
Napster诞生25周年：文件共享革命的引领者

2024-06-06 21:42:07 31 阅读
ZCC5429 异步升压芯片

2024-06-06 21:42:07 35 阅读