使用VLM搭建ComfyUI-Dream-Interpreter梦境解析器

人类学习本质上是多模态 (multi-modal) 的,因为联合利用多种感官有助于我们更好地理解和分析新信息。理所当然地,多模态学习的最新进展即是从这一人类学习过程的有效性中汲取灵感,创建可以利用图像、视频、文本、音频、肢体语言、面部表情和生理信号等各种模态信息来处理和链接信息的模型。随着自然语言处理和计算机视觉的交叉融合,视觉-语言模型(VLM)已成为一个热门的研究领域。

视觉语言模型 (VLM) 采用多模态架构,可同时处理图像和文本数据。他们可以执行视觉问答 (VQA)、图像标题和文本到图像搜索类型的任务。VLM 利用多模态融合与交叉注意力、掩码语言建模和图像文本匹配等技术将视觉语义与文本表示相关联。此存储库包含有关著名视觉语言模型 (VLM) 的信息,包括有关其架构、训练过程和用于训练的数据集的详细信息。单击以展开以了解每种架构的更多详细信息。

接下来我们使用ComfyUI-Dream-Interpreter搭建一个全景的梦境解析器,话不多说,下面开始部署:

一:安装ComfyUI的三个节点插件

git clone https://github.com/gokayfem/ComfyUI-Dream-Interpreter.git
git clone https://github.com/gokayfem/ComfyUI_VLM_nodes.git
git clone https://github.com/jags111/ComfyUI_Jags_VectorMagic.git

二:下载工作流

下载这个工作流文件dream_interpretation_workflow.json,保存到你能随时找到的地方。

三:下载模型

这个工作很重要,全部模型145G,用的到的主要有以下几个:

1、dreamshaperXL_v21TurboDPMSDE.safetensors,去C站下载,当然如果找不到也可以用其他的标准模型代替。

下载位置:https://civitai.com/models/112902?modelVersionId=351306

安装位置:models\checkpoints

2、下载LoRa,360RedmondResized.safetensors。

下载地址:https://civitai.com/models/118025/360redmond-a-360-view-panorama-lora-for-sd-xl-10

安装位置:models\loras

3、下载视频模型:llava-v1.6-mistral-7b.Q5_K_M.gguf

全部这么多文件,不过你可以只下载最后一个。

下载位置:https://huggingface.co/cjpais/llava-1.6-mistral-7b-gguf/tree/main

安装位置: models\LLavacheckpoints

4、下载yolov8:

大约这些文件模型是ComfyUI_Jags_VectorMagic节点所需要的。

下载位置:https://huggingface.co/jags/yolov8_model_segmentation-set/tree/main

安装位置:models\yolov8

5、clipseg

ComfyUI_Jags_VectorMagic节点还需要以下这些模型。

下载位置:https://huggingface.co/CIDAS/clipseg-rd64-refined/tree/main

安装位置:models\clipseg

四:运行

导入工作流文件:dream_interpretation_workflow.json,然后运行就可以了。

相关推荐

  1. 解释模式(Interpreter

    2024-03-15 15:40:07       56 阅读
  2. 设计模式——解释模式(Interpreter

    2024-03-15 15:40:07       28 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-15 15:40:07       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-15 15:40:07       100 阅读
  3. 在Django里面运行非项目文件

    2024-03-15 15:40:07       82 阅读
  4. Python语言-面向对象

    2024-03-15 15:40:07       91 阅读

热门阅读

  1. Web安全攻防措施

    2024-03-15 15:40:07       39 阅读
  2. 程序分享--排序算法--冒泡排序

    2024-03-15 15:40:07       40 阅读
  3. int8量化和int16量化的区别

    2024-03-15 15:40:07       45 阅读
  4. 力扣题库第10题:和为K的子数组

    2024-03-15 15:40:07       39 阅读
  5. 在Odoo中定义基于SQL视图的模型

    2024-03-15 15:40:07       49 阅读
  6. 【yolo检测模型出现大量误报】

    2024-03-15 15:40:07       45 阅读
  7. 3月14日,每日信息差

    2024-03-15 15:40:07       40 阅读
  8. Leetcode 287. 寻找重复数

    2024-03-15 15:40:07       44 阅读
  9. MySQL Joins 学习笔记

    2024-03-15 15:40:07       52 阅读
  10. Oracle EMCC数据库集中管理平台安装配置与使用

    2024-03-15 15:40:07       45 阅读
  11. 力扣_动态规划2—乘积最大的子数组

    2024-03-15 15:40:07       45 阅读
  12. TextView 中实现打印效果并且可以换行

    2024-03-15 15:40:07       44 阅读
  13. leetcode257.二叉树的所有路径

    2024-03-15 15:40:07       42 阅读
  14. 【25届秋招备战C++】算法篇-贪心算法(Greedy)

    2024-03-15 15:40:07       48 阅读