Qwen2来了

2024-06-07 17:38:04
开发
8

Qwen2整体介绍

Qwen2开源模型下载

官方使用文档

变化

1、增大了上下文长度支持，Qwen2-72B-Instruct支持128K tokens，并且处理完美

2、代码和数学能力显著提升

3、多个评测基准上的领先表现

4、中英之外增加了27种语言相关的高质量数据

5、开源了Agent解决方案，用于高效处理 1000K tokens的上下文

「大量精力：如何扩展多语言预训练和指令微调数据的规模并提升质量，提升模型的多语言能力」

Agent 应用

核心：通过分块+能处理8K上下文的LLM 不断总结归纳，来解决1000K上下文的理解任务。

在这里插入图片描述

方案：构建三个级别的Agent，这一部分建议详读，很不错。

级别一：先用LLM来对user query进行“信息”和“指令”的抽取，然后用LLM对信息进行翻译，多语言的角度用BM25来提取相关块…
在这里插入图片描述
级别二：为了减少因关键词重叠度不足导致的上下文错过的问题，用LLM来判断块和query的相关度，用相关块的相关句子而不是 query当中的关键词来检索最相关的块。

级别三：另外训练一个用于规划的LLM，用级别二的llm作为tool，实现逐级推理
在这里插入图片描述

基础

GQA

作用：推理加速、降低显存占用

MHA | MQA | GQA | MLA

tie embedding

场景：针对7B以下的小模型，比如0.5B、1.5B的

作用：让输入和输出层共享参数，增加非embedding参数的占比

长文本处理

YARN

Dual Chunk Attention

开源生态

在这里插入图片描述

一些数字

在这里插入图片描述

期待

期待QwenVL开源版本的更新

原文地址:https://blog.csdn.net/jinselizhi/article/details/139528763 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1799012941727666176.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

热门阅读

【原创】springboot+mysql宠物领养和论坛系统设计与实现

2024-06-07 17:38:04 8 阅读
CentOS Stream release 9安装docker

2024-06-07 17:38:04 7 阅读
Claude 3可使用第三方API，实现业务流程自动化

2024-06-07 17:38:04 5 阅读
瑞鑫RK3588 画中画 OSD 效果展示

2024-06-07 17:38:04 9 阅读
什么是RPA自动化办公？

2024-06-07 17:38:04 7 阅读
#7机器学习（西瓜书）自学记录

2024-06-07 17:38:04 6 阅读
PostgreSQL 存储过程 #postgreSQL考试

2024-06-07 17:38:04 6 阅读
【调试笔记-20240530-Linux-在 OpenWRT-23.05 上为 nginx 配置 HTTPS 网站】

2024-06-07 17:38:04 10 阅读
新版校园跑腿外卖独立版+APP+小程序前端外卖配送平台源码

2024-06-07 17:38:04 9 阅读
Tomcat

2024-06-07 17:38:04 7 阅读
SpringBoot实现图片文件上传和回显的两种方式

2024-06-07 17:38:04 8 阅读
Spring AOP

2024-06-07 17:38:04 8 阅读
如何从数码相机恢复已删除的照片？

2024-06-07 17:38:04 8 阅读
Kubernetes 系统监控Metrics Server、HorizontalPodAutoscaler、Prometheus

2024-06-07 17:38:04 8 阅读
2.4 OpenCV随手简记（五）

2024-06-07 17:38:04 6 阅读
视觉SLAM十四讲：从理论到实践（Chapter8：视觉里程计2）

2024-06-07 17:38:04 7 阅读
opencv-python（四）

2024-06-07 17:38:04 9 阅读
HIK录像机GB28181对接相机不在线问题随笔

2024-06-07 17:38:04 7 阅读
服务器创建、连接

2024-06-07 17:38:04 9 阅读
修改hostname导致RabbitMQ数据丢失

2024-06-07 17:38:04 8 阅读
MySQL与PostgreSQL关键对比一（整体篇）

2024-06-07 17:38:04 7 阅读
基于单片机的八路抢答器设计论文

2024-06-07 17:38:04 8 阅读
websockets怎么工作的呢？

2024-06-07 17:38:04 8 阅读
计算机网络到底是指什么？

2024-06-07 17:38:04 7 阅读
【GD32】05 - PWM 脉冲宽度调制

2024-06-07 17:38:04 8 阅读
SpringBoot整合kafka

2024-06-07 17:38:04 7 阅读
转让海南投资集团公司变更条件和流程

2024-06-07 17:38:04 9 阅读
618购物狂欢节来袭，精选五款不容错过的超值好物推荐！

2024-06-07 17:38:04 9 阅读
AI写作革新：提升论文质量和效率的AI论文工具

2024-06-07 17:38:04 8 阅读
Spring Cloud Gateway详解

2024-06-07 17:38:04 9 阅读