Mixtral: 专家云集 高质量的稀疏专家组合

Mixtral: 专家云集 高质量的稀疏专家组合

Mistral AI 继续履行其使命,为开发者社区提供最佳的开放模型。人工智能的发展需要采取新的技术转向,而不仅仅是重用众所周知的架构和训练范式。最重要的是,需要让社区从原始模型中受益,以促进新的发明和使用。

Mistral AI 团队自豪地发布了 Mixtral 8x7B,这是一个具有开放权重的高质量稀疏专家模型 (SMoE) 混合。在 Apache 2.0 下获得许可。Mixtral 在大多数基准测试中的表现优于 Llama 2 70B,推理速度提高了 6 倍。它是具有宽松许可证的最强开放模型,也是成本/性能权衡方面整体上的最佳模型。特别是,它在大多数标准基准测试上与 GPT3.5 相当或优于 GPT3.5。

Mixtral 具有以下功能:

  • 优雅地处理 32k 标记的上下文。
  • 处理英语、法语、意大利语、德语和西班牙语。
  • 在代码生成方面表现出强大的性能。
  • 可以微调为指令遵循模型,在 MT-Bench 上达到 8.3 分。

推动具有稀疏架构的开放模型的前沿

Mixtral 是一个稀疏的专家混合网络。是一种仅解码器模型,其中前馈模块从一组 8 组不同的参数中进行选择。在每一层,对于每个标记,路由器网络选择其中两个组(“专家”)来处理标记并将其输出累加组合。

这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型只使用每个标记参数集总数的一小部分。 具体来说,Mixtral 有 46.7B 的总参数,但每个标记只使用 12.9B 参数。因此,它以与 12.9B 模型相同的速度和相同的成本处理输入并生成输出。

Mixtral 根据从开放网络中提取的数据进行预训练——同时训练专家和路由器。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2023-12-15 21:04:04       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2023-12-15 21:04:04       100 阅读
  3. 在Django里面运行非项目文件

    2023-12-15 21:04:04       82 阅读
  4. Python语言-面向对象

    2023-12-15 21:04:04       91 阅读

热门阅读

  1. 第一章:绪论(上)

    2023-12-15 21:04:04       50 阅读
  2. Git的代码统计

    2023-12-15 21:04:04       59 阅读
  3. 爬虫中HTTP请求库和requestsxiang详解

    2023-12-15 21:04:04       56 阅读
  4. Angular——DomSanitizer服务

    2023-12-15 21:04:04       59 阅读
  5. 关于【Error】expected ‘(‘ before ‘else‘

    2023-12-15 21:04:04       55 阅读
  6. switch case和if else对比

    2023-12-15 21:04:04       61 阅读
  7. LeetCode49. Group Anagrams

    2023-12-15 21:04:04       138 阅读
  8. 拒接服务攻击(DOS)的初步介绍

    2023-12-15 21:04:04       122 阅读
  9. 高并发场景下的httpClient使用优化技巧

    2023-12-15 21:04:04       54 阅读