论文阅读：Vary论文阅读笔记

2024-01-19 06:16:05
开发
73

引言

论文：Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Paper | Github | Demo

许久不精读论文了，内心一直想找个专门的时间来细细拼读自己感兴趣的论文。现在想来，无异于是自己骗自己了–根本就不存在那个专门的时间。所以改变最好的时候就是现在。

因为自己一直在做OCR相关，因为对LLM中文档智能相关的工作比较感兴趣。因此，就以旷视出的这篇工作Vary作为切入点，借此来学习LLM在文档智能领域的相关工作。

整体结构图

Vary
Figure 1：主要想说明Vary在产生vocabulary时，采用两阶段策略：在第一阶段，通过自回归方法，先产生一个新的vocabulary，在第二阶段，将新的vocabulary与原始的融合，作为一个新的vocabulary。

在这里插入图片描述

Figure 2: 第一阶段中，Vary为Vary-tiny，主要用来产生新的vocabulary；而Vary-base主要基于new vision vocabulary来处理各种visual tasks。
在这里插入图片描述
Vary-tiny中，使用在VitDet上预训练过的SAM作为image encoder，之后为了和之后CLIP-L对齐，又加了两个Conv。

Vary这篇工作整体思路较为简单，更多地方就要去看源码的细节实现了。

🤮 不过想要吐槽一下的是，论文中竟然和Nougat作比较。Vary和Nougat参数量来看简直不是一个量级啊。转过来想，也是，毕竟这个方向目前也没有一个除Nougat之外的基线了。

数据集构造

之所以将这部分作为一个单独章节来说，是因为这个工作的难点就在于此。Nougat和Vary都没有开源所用的数据集。Nougat好在给出了一些制作数据集的相关代码。Vary目前一点也没有放出来。所以这里也就根据论文来简单看看怎么做的了。

Vary-tiny部分

该部分主要聚焦于fine-grained perception，例如文档智能和图表理解，说是为了弥补CLIP的不足，因此这部分网络输入都是图像，没有文本输入的分支。

在训练Vary-tiny部分，作者将文档和图表数据作为positive samples，自然场景图像作为negative数据。

Document Data数据构造

由于该部分需要的数据为：输入是文档图像，输出是对应的markdown格式文本。目前没有公开的中英文文档数据集，因为作者自行构建的。

其中，英文文档主要来源于arXiv和CC-MAIN-2021-31-PDFUNTRUNCATED两部分。中文文档主要来源于互联网上的电子书。

处理方法：PyMuPDF库提取PDF每页信息，同时用pdf2image工具将PDF对应页转为图像。（感觉这里处理的较为粗糙，有较大提升空间）

最终构建了100w中文和100w英文文档图像对数据集用于训练Vary-tiny部分。

Chart Data构造

作者观察到LVLM不太擅长处理图表理解问题，尤其是中文图表。因此，本篇工作着重将其作为一个重点任务。

构建图表的image-text pair对方案：采用matplotlib和pyecharts作为渲染工具。渲染了matplotlib风格的中英文图表250k条，渲染了pyeharts风格中英文图表500k条。另外，构建图表的ground truth为一个python字典形式。其中图表中的文本，例如title, x-axis和y-axis都是从NLP语料库中随机选的。

Negative natural image选取

因为CLIP-VIT对于自然图像较为擅长。为了确保新引入的vocabulary不影响已有效果，因此，作者在训练Vary-Tiny时，引入了自然图像作为negative image-text pairs。

作者从COCO数据集中选取了120k图像，其所对应的文本从以下几条中随机选取：

“It’s an image of nature”;
“Here’s a nature picture”;
“It’s a nature photo”;
“This is a natural image”;
“That’s a shot from nature”.

Vary-base部分

TODO

原文地址:https://blog.csdn.net/shiwanghualuo/article/details/135256188 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1748107015634423808.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部