The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

本文是LLM系列文章,针对《The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits》的翻译。

1位LLM时代:所有大型语言模型都是1.58位

摘要

最近的研究,如BitNet,正在为1位大型语言模型(LLM)的新时代铺平道路。在这项工作中,我们引入了一个1位LLM变体,即BitNet b1.58,其中LLM的每个单个参数(或权重)都是三元{-1,0,1}。它在困惑和最终任务性能方面与具有相同模型大小和训练token的全精度(即FP16或BF16)Transformer LLM相匹配,同时在延迟、内存、吞吐量和能耗方面显著更具成本效益。更深入地说,1.58位LLM定义了一种新的缩放定律和配方,用于训练新一代的LLM,这些LLM既高性能又具有成本效益。此外,它实现了一种新的计算范式,并为设计针对1位LLM优化的特定硬件打开了大门。

1 1位LLM时代

相关推荐

  1. petalinux2021.1 手动打包BOOT.BIN

    2024-05-10 16:32:02       52 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-10 16:32:02       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-10 16:32:02       100 阅读
  3. 在Django里面运行非项目文件

    2024-05-10 16:32:02       82 阅读
  4. Python语言-面向对象

    2024-05-10 16:32:02       91 阅读

热门阅读

  1. 商城数据库88张表DDL(71-88)

    2024-05-10 16:32:02       28 阅读
  2. 典型相关分析模型评价的标准和代码

    2024-05-10 16:32:02       33 阅读
  3. 设置docker容器时区

    2024-05-10 16:32:02       27 阅读
  4. leetcode55-Jump Game

    2024-05-10 16:32:02       29 阅读
  5. leetcode53-Maximum Subarray

    2024-05-10 16:32:02       34 阅读
  6. Gateway基础配置指南

    2024-05-10 16:32:02       33 阅读
  7. gateway基本配置

    2024-05-10 16:32:02       29 阅读
  8. 算法训练营day31

    2024-05-10 16:32:02       39 阅读
  9. 离心式冷水机组的控制逻辑

    2024-05-10 16:32:02       28 阅读