快速体验 Llama3 的 4 种方式，本地部署，800 tokens/s 的推理速度真的太快了！

2024-07-12 11:02:05
开发
21

北京时间4月19日凌晨，Meta在官网上官宣了Llama-3，作为继Llama1、Llama2和CodeLlama之后的第三代模型，Llama3在多个基准测试中实现了全面领先，性能优于业界同类最先进的模型，你有没有第一时间体验上呢，这篇文章就分享下如何在Groq上以超过 800 tokens/s 的魔鬼推理速度体验Llama3，会同时分享Web端、移动端、API方式以及集成到LangChain中4种体验方案。

我的新书[《LangChain编程从入门到实践》]已经开售！推荐正在学习AI应用开发的朋友购买阅读，本书围绕 LangChain 梳理了AI时代开发范式的转变，除了LangChain，还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架。

[ LangChain编程从入门到实践

Groq 有多快

先看两组数据

Llama3 8B不同平台的推理速度

Llama3 70B不同平台的推理速度

Llama3 8B 每秒钟 876 tokens 的输出速度，人眼基本跟不上模型的输出速度了，要知道 Llama3 8B 的质量与 GPT-3.5 和 Llama2 70B 相似，可以显著提升一些常见的 AI 应用场景的用户体验；RAG 的性能瓶颈不再是 LLM，而是 Retrieval，什么 HyDE（假设⽂档嵌⼊，利⽤ LLMs ⽣成假设性答案，以增强⽂档检索的准确性）、LLM 重排序器（对检索到的⽂档进⾏重排序，以优先选择最相关和上下⽂适当的信息）不再是 RAG 链路速度瓶颈…

初看数据，我以为是个噱头，本着务实的态度，我自己实际体验了一把，大家自己看 👇

Llama3 8B实测

Llama3 70B实测

结果 Llama3 70B 的实际体验结果比测评数据还高。

Groq 为什么这么快

源于 Groq 开发出了一种新的 AI 处理器 ——LPU（Language Processing Unit），其推理速度相较于英伟达 GPU 提高了 10 倍。

专业优化：LPU 专门针对语言模型推理任务进行了优化，特别是在序列处理方面。
创新架构：LPU 采用了一种新的计算模式，能够高效地按顺序处理任务，而不是并行处理。
软件先行：Groq 在硬件开发前就创新了软件和编译器，以确保芯片间的高效通信。
内存与处理单元的整合：LPU 的设计使得数据流局部性得到更好的利用。
针对性能和成本的优化：LPU 在设计时就注重了性能提升和成本降低。

4 种 Groq 体验方案

1. Web 端

无需登录，即可直接在网页版进行尝试，地址指路 👉[groq.com]，当前支持的模型有 Llama3 8B-4k 、 Llama3 70B-8k 、 Llama2 70B-8k 、 Mixtral 8X7B-32k 、 Gemma 7B-it

2. 移动端

Gorq 的 iOS 应用已经推出，目前不需要登录即可使用，通过下面的 TestFlight 安装地址：[testflight.apple.com]，支持的模型有 Llama3 8B 、 Llama3 70B 、 Llama2 70B 、 Mixtral 8X7B 、 Gemma 7B

Gorq iOS 应用

3. API 调用

先前往这个地址 [console.groq.com/keys] 申请好 API-KEY。

Groq API-Key申请

安装依赖库

pip install groq

调用

import os
from groq import Groq

client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
)
llm = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "编写一篇中国神话故事，篇幅500～800字，必须使用中文输出",
        }
    ],
    model="llama3-70b-8192",
)

print(llm.choices[0].message.content)

4. LangChain 中使用

安装依赖库

pip install langchain-groq

使用

from langchain_core.prompts import ChatPromptTemplate
from langchain_groq import ChatGroq

llm = ChatGroq(temperature=0, model_name="llama3-70b-8192")
human = "{text}"
prompt = ChatPromptTemplate.from_messages([("human", human)])

chain = prompt | llm

response = chain.invoke({"text": "编写一篇中国神话故事，篇幅500～800字，必须使用中文输出"})
print(response.content)

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

原文地址:https://blog.csdn.net/2401_84495872/article/details/140371168 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1811596863707680768.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部