Qwen2来了

Qwen2整体介绍

Qwen2开源模型下载

Demo使用

Git

官方使用文档

变化

1、增大了上下文长度支持,Qwen2-72B-Instruct支持128K tokens,并且处理完美

2、代码和数学能力显著提升

3、多个评测基准上的领先表现

4、中英之外增加了27种语言相关的高质量数据

5、开源了Agent解决方案,用于高效处理 1000K tokens的上下文

「大量精力:如何扩展多语言预训练 和指令微调数据的规模并提升质量,提升模型的多语言能力」

Agent 应用

博客

代码

核心:通过分块+能处理8K上下文的LLM 不断总结归纳,来解决1000K上下文的理解任务。

在这里插入图片描述

方案:构建三个级别的Agent,这一部分建议详读,很不错。

级别一:先用LLM来对user query进行“信息”和“指令”的抽取,然后用LLM对信息进行翻译,多语言的角度用BM25来提取相关块…
在这里插入图片描述
级别二:为了减少 因关键词重叠度不足导致的 上下文错过 的问题,用LLM来判断块和query的相关度,用相关块的相关句子 而不是 query当中的 关键词来检索 最相关的块。
在这里插入图片描述
级别三:另外训练一个用于规划的LLM,用级别二的llm作为tool,实现逐级推理
在这里插入图片描述

基础

GQA

作用:推理加速、降低显存占用

MHA | MQA | GQA | MLA

tie embedding

场景:针对7B以下的小模型,比如0.5B、1.5B的

作用:让输入和输出层共享参数,增加非embedding参数的占比

长文本处理

YARN

论文地址

Dual Chunk Attention

论文地址

开源生态

在这里插入图片描述

一些数字

在这里插入图片描述
在这里插入图片描述

期待

期待QwenVL开源版本的更新

相关推荐

最近更新

  1. TCP协议是安全的吗?

    2024-06-07 17:38:04       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-06-07 17:38:04       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-06-07 17:38:04       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-06-07 17:38:04       20 阅读

热门阅读

  1. CentOS Stream release 9安装docker

    2024-06-07 17:38:04       7 阅读
  2. 什么是RPA自动化办公?

    2024-06-07 17:38:04       7 阅读
  3. Tomcat

    Tomcat

    2024-06-07 17:38:04      7 阅读
  4. Spring AOP

    2024-06-07 17:38:04       8 阅读
  5. 服务器创建、连接

    2024-06-07 17:38:04       9 阅读
  6. 修改hostname导致RabbitMQ数据丢失

    2024-06-07 17:38:04       8 阅读
  7. websockets怎么工作的呢?

    2024-06-07 17:38:04       8 阅读
  8. SpringBoot整合kafka

    2024-06-07 17:38:04       7 阅读