The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

2024-05-10 16:32:02
开发
28

本文是LLM系列文章，针对《The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits》的翻译。

1位LLM时代：所有大型语言模型都是1.58位

摘要
1 1位LLM时代
2 BitNet b1.58
3 结果
4 讨论和未来工作

摘要

最近的研究，如BitNet，正在为1位大型语言模型（LLM）的新时代铺平道路。在这项工作中，我们引入了一个1位LLM变体，即BitNet b1.58，其中LLM的每个单个参数（或权重）都是三元{-1，0，1}。它在困惑和最终任务性能方面与具有相同模型大小和训练token的全精度（即FP16或BF16）Transformer LLM相匹配，同时在延迟、内存、吞吐量和能耗方面显著更具成本效益。更深入地说，1.58位LLM定义了一种新的缩放定律和配方，用于训练新一代的LLM，这些LLM既高性能又具有成本效益。此外，它实现了一种新的计算范式，并为设计针对1位LLM优化的特定硬件打开了大门。

1 1位LLM时代

原文地址:https://blog.csdn.net/c_cpp_csharp/article/details/138559413 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1788849465071898624.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

相关推荐

高效解决Ubuntu Server 18.04.1 LTS 64bit更新gdb8.1.1到gdb12.1

2024-05-10 16:32:02 34 阅读
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

2024-05-10 16:32:02 29 阅读
7-15 位模式（dump_bits）---PTA实验C++

2024-05-10 16:32:02 27 阅读
Nvidia V100 GPU 运行 InternVL 1.5-8bit

2024-05-10 16:32:02 27 阅读
19-1 LLM之野望 1 – 微软打开1-bit LLM时代

2024-05-10 16:32:02 34 阅读
petalinux2021.1 手动打包BOOT.BIN

2024-05-10 16:32:02 52 阅读
bat批处理文件_命令汇总（1）

2024-05-10 16:32:02 51 阅读
[BIZ] - 1.金融交易系统特点

2024-05-10 16:32:02 44 阅读
【自然语言处理】BitNet b1.58：1bit LLM时代

2024-05-10 16:32:02 36 阅读
matplotlib从起点出发(15)_Tutorial_15_blitting

2024-05-10 16:32:02 33 阅读

最近更新

题解 - 序列

2024-05-10 16:32:02 116 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-05-10 16:32:02 102 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-05-10 16:32:02 94 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-05-10 16:32:02 100 阅读
NoSQL之Redis非关系型数据库

2024-05-10 16:32:02 101 阅读
2024.7.22 作业

2024-05-10 16:32:02 98 阅读
GDB调试正在运行的程序

2024-05-10 16:32:02 81 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-05-10 16:32:02 85 阅读
在Django里面运行非项目文件

2024-05-10 16:32:02 82 阅读
SSD基本架构与工作原理

2024-05-10 16:32:02 87 阅读
在誉天学习完HCIE就业吗？

2024-05-10 16:32:02 94 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-05-10 16:32:02 84 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-05-10 16:32:02 85 阅读
go 协程池的实现

2024-05-10 16:32:02 89 阅读
Shell脚本循环语句与函数

2024-05-10 16:32:02 89 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-05-10 16:32:02 93 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-05-10 16:32:02 85 阅读
四大引用——强软弱虚

2024-05-10 16:32:02 86 阅读
Python语言-面向对象

2024-05-10 16:32:02 91 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-05-10 16:32:02 85 阅读
网站安全-CDN篇

2024-05-10 16:32:02 89 阅读

热门阅读

uniapp——弹出键盘遮挡住输入框 textarea，处理方法

2024-05-10 16:32:02 29 阅读
1119. Metro. dynamic programming, graph theory

2024-05-10 16:32:02 33 阅读
RJ71PN92 三菱iQ-R系列PROFINET IO控制器模块

2024-05-10 16:32:02 36 阅读
商城数据库88张表DDL（71-88）

2024-05-10 16:32:02 28 阅读
自动驾驶主流芯片及平台架构（三）低算力平台

2024-05-10 16:32:02 25 阅读
sqlx执行案例

2024-05-10 16:32:02 33 阅读
MySQL——变量的浮点数问题处理

2024-05-10 16:32:02 26 阅读
典型相关分析模型评价的标准和代码

2024-05-10 16:32:02 33 阅读
Android Compose 一：基础控件

2024-05-10 16:32:02 22 阅读
ssrf漏洞学习——基础知识

2024-05-10 16:32:02 31 阅读
C语言 | Leetcode C语言题解之第77题组合

2024-05-10 16:32:02 27 阅读
设置docker容器时区

2024-05-10 16:32:02 27 阅读
leetcode55-Jump Game

2024-05-10 16:32:02 29 阅读
03、 Kafaka单机环境部署

2024-05-10 16:32:02 33 阅读
73. 矩阵置零/54. 螺旋矩阵

2024-05-10 16:32:02 32 阅读
Linux网络部分——SSH远程访问及控制

2024-05-10 16:32:02 34 阅读
leetcode53-Maximum Subarray

2024-05-10 16:32:02 34 阅读
go导入包时提示no required module provides package解决方法

2024-05-10 16:32:02 28 阅读
C++ | Leetcode C++题解之第77题组合

2024-05-10 16:32:02 28 阅读
Gateway基础配置指南

2024-05-10 16:32:02 33 阅读
gateway基本配置

2024-05-10 16:32:02 29 阅读
Spring Cloud Consul 4.1.1

2024-05-10 16:32:02 28 阅读
“漫画之家”|基于Springboot+vue的“漫画之家”系统(源码+数据库+文档)

2024-05-10 16:32:02 32 阅读
Linux的编译器

2024-05-10 16:32:02 28 阅读
算法训练营day31

2024-05-10 16:32:02 39 阅读
Hibernate认识

2024-05-10 16:32:02 30 阅读
离心式冷水机组的控制逻辑

2024-05-10 16:32:02 28 阅读
ArcGIS10.2系列许可到期解决方案

2024-05-10 16:32:02 26 阅读
Android 蓝牙实战——蓝牙电话通话状态分析（二十三）

2024-05-10 16:32:02 26 阅读
接口框架项目实战-pytest（四）请求封装&接口关联

2024-05-10 16:32:02 26 阅读