大模型(LLM)的推理加速

A Survey on Efficient Inference for Large Language Models

1.概述

        论文分析并总结了如何提高大型语言模型(LLM)在推断阶段的效率。文中指出,尽管LLM在多种任务中表现出色,但它们在资源有限的环境中的部署却面临着由于模型大小、注意力机制的复杂性和自回归解码过程所带来的计算和存储成本的挑战。文章通过建立一个包含数据层面、模型层面和系统层面优化的全面分类体系,探讨了当前文献中的不同优化策略,并进行了一系列比较实验,以提供定量见解。最后,文中还总结了现有知识并讨论了未来的研究方向。

2.背景知识

(1)Transformer

        Transformer由注意力机制和FFN层构成,自注意力机制带来大量的计算量,计算复杂性随着输入长度的增加而呈二次方增长,而FFN层带来了巨大的参数量。

相关推荐

  1. 模型LLM推理加速

    2024-05-03 10:24:03       31 阅读
  2. LLM推理加速知识

    2024-05-03 10:24:03       36 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-05-03 10:24:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-05-03 10:24:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-05-03 10:24:03       82 阅读
  4. Python语言-面向对象

    2024-05-03 10:24:03       91 阅读

热门阅读

  1. ubuntu重安装libc

    2024-05-03 10:24:03       34 阅读
  2. Spring 事务失效的几种情况

    2024-05-03 10:24:03       30 阅读
  3. Vue 基础汇总

    2024-05-03 10:24:03       25 阅读
  4. Map实现(2)| LinkedHashMap

    2024-05-03 10:24:03       28 阅读
  5. 生物样品培养

    2024-05-03 10:24:03       31 阅读
  6. 【杂谈】空格还是Tab?

    2024-05-03 10:24:03       29 阅读
  7. 前端工程化的基本介绍

    2024-05-03 10:24:03       36 阅读
  8. 简要描述Nacos是什么以及它的主要用途。

    2024-05-03 10:24:03       31 阅读