大模型学习笔记十一:视觉大模型

一、判别式模型和生成式模型

1)判别式模型Discriminative

①给某一个样本,判断属于某个类别的概率,擅长分类任务,计算量少。(学习策略函数Y =f(X)或者条件概率P(YIX))
②不能反映训练数据本身的特性
③学习成本低(需要的训练样本量少)
④无法转为生成式

2)生成式模型Generative

①学习联合概率密度分布概率P(X,Y,学习所有数据的分布
能够反映训练数据本身的特性,能掌握数据本身的边界信息
③学习成本高(需要的样本数更多)0
④一定条件下可以转换为判别式

  • 示意图
    在这里插入图片描述

二、生成式模型技术路径

2.1 AutoEncoder自编码器

  • 组成
    编码器和解码器(其实就是特征压缩和特征拟合)
  • 示意图
    在这里插入图片描述
  • 注意
    ①AE中的隐变量是不具有语义特性的
    在这里插入图片描述

2.2 VAE变分自编码器(解决生成特定内容图像的问题)

  • 原理
    每一个特征对应一个正态分布的区间,比如微笑、皮肤、性别、胡须、毛发颜色等采样取差值
    在这里插入图片描述
  • 使用
    那我们只需要修改某个特征分布就可以达到想要的效果
  • 缺陷
    联合高斯密度生成信息损失大,图片比较粗糙

2.3 Diffusion Model扩散模型

  • 需求
    保留更多图片信息
  • 包括两个过程
    ①正向扩散过程:向输入数据中逐渐加入噪声的过程
    ②反向去噪过程:通过去噪方式学习数据生成过程
  • 示意图
    在这里插入图片描述+ 预测的是什么?
    预测的是前一步正向扩散加的噪声
  • 步骤
    ①每一步迭代都是从数据集中取一个初始的图像样本作为Xo
    ②把Xo从0到1000之间采样一个时间步的Xt,就是步数,比如取500步,就是给图片加500步噪声
    ③训练利用X500得到X499这样一个去噪过程
  • 公式
    在这里插入图片描述
  • 使用模型案例
    DiT Block
    在这里插入图片描述

2.4 Stabel Diffusion 模型结构

  • 与DM的不同(引入条件信息:对象分类、文本、排版布局、图片参考)
    在这里插入图片描述

  • 特点
    ①引入VAE模型减少计算量(图像特征压缩到原始尺寸的1/4),推理的时间复杂度会降低很多
    ②通过统一方式注入条件类型到模型
    ③CLIP只支持英文

  • 版本更新迭代(以前用的CLIP,普遍有文本内容理解问题,容易生成图文不对齐的情况)
    在这里插入图片描述

  • 特制模型(C站扩展举例)

    1. Indigo Furry mix

模型地址:https://civitai.com/models/34469?modelVersionId=109229

发布者:indigowing(个人主页:https://civitai.com/user/indigowing/models)

介绍:这是一系列的模型,主要专注于雄性兽/龙人(还有非全年龄向内容)。其模型有偏混合向的,偏动漫向的,还有偏现实向的。所以可根据你想画什么风格画风的画,来选择对应表现较好的模型 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili
在这里插入图片描述
2. Crosskemono(furry_model&human_model)

模型地址:https://civitai.com/models/11888?modelVersionId=47368

注:此系列模型附带VAE,配合它来一起使用(VAE的作用可以理解为滤镜,在生成 AI 绘画时,会对输出的颜色和线条产生影响)

发布者:toynya(个人主页:https://civitai.com/user/toynya/models)

介绍:这个系列的模型主要是萌系日系那种风格的,可生成可爱的雄性或者雌性兽人,据演示图来看还可以生成兽娘(Furry程度表中的2级福瑞)。不过需要注意,这个模型也会生成非全年龄向的内容 作者:琉璃汐阳 https://www.bilibili.com/read/cv24890845/ 出处:bilibili

在这里插入图片描述

  • 定制路线
    ①阶段一:图文对其训练,得出基础模型
    ②阶段二:图文对其训练,得出社区微调模型
  • 使用
    在这里插入图片描述

2.5 级联式文声图模型

2.6 文生图模型

2.7 SD模型的加速方法

三、3D目标生成方法一览

3.1 基于Nerf的方法

3.2 基于扩散模型和的方法

四、视频生成方法一览

4.1 基于文成图预训练模型的方法

4.2 原生视频生成方法

相关推荐

  1. 模型笔记视觉语言模型解释

    2024-07-17 05:28:04       33 阅读
  2. 模型学习与实践笔记五)

    2024-07-17 05:28:04       66 阅读
  3. 模型训练学习笔记

    2024-07-17 05:28:04       31 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-17 05:28:04       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-17 05:28:04       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-17 05:28:04       58 阅读
  4. Python语言-面向对象

    2024-07-17 05:28:04       69 阅读

热门阅读

  1. C# 文件上传总结

    2024-07-17 05:28:04       23 阅读
  2. Linux的线程

    2024-07-17 05:28:04       22 阅读
  3. Transformer模型在多任务学习中的革新应用

    2024-07-17 05:28:04       25 阅读
  4. 【Qt+opencv】ROI与图像混合

    2024-07-17 05:28:04       25 阅读
  5. Jmeter二次开发Demo

    2024-07-17 05:28:04       23 阅读
  6. ubuntu上通过修改grub启动参数,将串口重定向到sol

    2024-07-17 05:28:04       23 阅读
  7. 【mysql】02在ubuntu24安装并配置mysql

    2024-07-17 05:28:04       26 阅读
  8. 常见云存储服务对比

    2024-07-17 05:28:04       19 阅读
  9. Linux基础 -- 运行安全之ASLR的作用与实现方式

    2024-07-17 05:28:04       28 阅读
  10. Django获取request请求中的参数

    2024-07-17 05:28:04       26 阅读
  11. 上传文件给Ubuntu服务器

    2024-07-17 05:28:04       27 阅读