人工智能_大模型060_多模态大语言模型08_LLaVA多模态大模型训练_第二阶段语言模型微调_模型部署_LLaVA模型评测---人工智能工作笔记0195

  上一节我们第一阶段,训练特征映射层,对应的训练脚本,已经提供,指定训练数据集以后,

直接用一张或者8张A100 一张80G显存去跑就可以了.

然后第二阶段就是对大语言模型进行微调,这里需要两类数据,对话数据的两类,一类是:

常规对话数据:

之前我们生成的,第二类是:

第二类是复杂推理类对话数据,可以看到,包含了图片中物体的位置信息数据.

LLaVA是一种结合了文本和图像数据的多模态预训练模型。它基于大型语言模型和视觉模型,通过多模态融合技术将这两种模型的信息进行整合,从而能够处理和理解多种不同类型的数据。
LLaVA模型的主要特点包括:
1. 多模态输入:LLaVA模型可以同时接收文本和图像输入,这使得它能够更好地理解和处理多模态数据。
2. 预训练任务:LLaVA模型在预训练阶段使用了大量的文本和图像数据进行训练,以学习如何将这两种不同类型的数据进行有效融合。
3. 多模态融合:LLaVA模型采用了多模态融合技术,如注意力机制和多层感知器,将文本和图像的特征进行整合,从而能够生成更加丰富和全面的理解。
4. 应用广泛:由于LLaVA模型能够处理和理解多模态数据,它在许多领域都有广泛的应用,如图像描述生成、视觉问答、多模态对话等。
总的来说,LLaVA模型是一种强大的多模态

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-15 21:24:07       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-15 21:24:07       100 阅读
  3. 在Django里面运行非项目文件

    2024-05-15 21:24:07       82 阅读
  4. Python语言-面向对象

    2024-05-15 21:24:07       91 阅读

热门阅读

  1. cocos creator 帧率60 不生效meta50 能刷新到90

    2024-05-15 21:24:07       24 阅读
  2. yolo进行视频检测结果没有生成

    2024-05-15 21:24:07       30 阅读
  3. Linux函数

    2024-05-15 21:24:07       28 阅读
  4. nvr国标sip端口信息异常的处理

    2024-05-15 21:24:07       32 阅读
  5. SpringBoot+Mock Mvc测试web接口增删改查、导入导出

    2024-05-15 21:24:07       30 阅读
  6. 微信小程序更新日志

    2024-05-15 21:24:07       32 阅读
  7. 设计模式之——单例模式

    2024-05-15 21:24:07       34 阅读
  8. android设计模式-单例模式

    2024-05-15 21:24:07       38 阅读
  9. 【设计模式】单例模式-学习记录

    2024-05-15 21:24:07       34 阅读