6种方法在本地运行LLM

Hugging Face 还提供了Transformers，这是一个 Python 库，可以简化本地 LLM 的运行。以下示例使用该库运行旧版 GPT-2 microsoft/DialoGPT-medium模型。第一次运行时，变形金刚将下载模型，您可以与其进行五次交互。该脚本还需要安装PyTorch 。

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("microsoft/DialoGPT-medium", padding_side='left')
model = AutoModelForCausalLM.from_pretrained("microsoft/DialoGPT-medium")
# source: https://huggingface.co/microsoft/DialoGPT-medium
# Let's chat for 5 lines
for step in range(5):
    # encode the new user input, add the eos_token and return a tensor in Pytorch
    new_user_input_ids = tokenizer.encode(input(">> User:") + tokenizer.eos_token, return_tensors='pt')
    # append the new user input tokens to the chat history
    bot_input_ids = torch.cat([chat_history_ids, new_user_input_ids], dim=-1) if step > 0 else new_user_input_ids
    # generated a response while limiting the total chat history to 1000 tokens, 
    chat_history_ids = model.generate(bot_input_ids, max_length=1000, pad_token_id=tokenizer.eos_token_id)
    # pretty print last output tokens from bot
    print("DialoGPT: {}".format(tokenizer.decode(chat_history_ids[:, bot_input_ids.shape[-1]:][0], skip_special_tokens=True)))

Transformers优点：

自动模型下载
可用的代码片段
非常适合实验和学习

Transformers缺点：

需要对 ML 和 NLP 有深入的了解
编码和配置技能是必要的

2.LangChain

我们可以在本地运行 LLM 的另一种方法是使用LangChain。LangChain是一个用于构建人工智能应用程序的Python框架。它提供抽象和中间件，以便在其支持的模型之一之上开发人工智能应用程序。例如，以下代码向microsoft/DialoGPT-medium模型询问一个问题：

from langchain.llms.huggingface_pipeline import HuggingFacePipeline

hf = HuggingFacePipeline.from_model_id(
    model_id="microsoft/DialoGPT-medium", task="text-generation", pipeline_kwargs={"max_new_tokens": 200, "pad_token_id": 50256},
)
from langchain.prompts import PromptTemplate
template = """Question: {question}
Answer: Let's think step by step."""
prompt = PromptTemplate.from_template(template)
chain = prompt | hf
question = "What is electroencephalography?"
print(chain.invoke({"question": question}))

LangChain 优点：

更轻松的模型管理
用于 AI 应用程序开发的有用实用程序

LangChain 缺点：

速度有限，与变形金刚相同
您仍然必须对应用程序的逻辑进行编码或创建合适的 UI。

3. Llama.cpp

Llama.cpp是一个基于 C 和 C++ 的 LLM 推理引擎，针对 Apple 芯片进行了优化并运行 Meta 的 Llama2 模型。

一旦我们克隆存储库并构建项目，我们就可以使用以下命令运行模型：

$ ./main -m /path/to/model-file.gguf -p "Hi there!"

Llama.cpp 优点：

比基于 Python 的解决方案性能更高
在中等硬件上支持 Llama 7B 等大型模型
提供绑定以使用其他语言构建 AI 应用程序，同时通过 Llama.cpp 运行推理。

Llama.cpp 缺点：

有限的模型支持
需要构建工具

4. Llamafile

Llamafile由 Mozilla 开发，为运行 LLM 提供了一种用户友好的替代方案。Llamafile 以其可移植性和创建单文件可执行文件的能力而闻名。

下载 llamafile 和任何 GGUF 格式的模型后，我们可以使用以下命令启动本地浏览器会话：

$ ./llamafile -m /path/to/model.gguf

Llamafile 优点：

与 Llama.cpp 相同的速度优势
您可以构建嵌入模型的单个可执行文件

Llamafile 缺点：

该项目仍处于早期阶段
并非所有模型都受支持，仅支持 Llama.cpp 的模型。

5.Ollama

Ollama是 Llama.cpp 和 Llamafile 的更用户友好的替代方案。您下载一个可执行文件，在您的计算机上安装服务。安装后，打开终端并运行：

$ ollama run llama2

Ollama 将下载模型并开始交互式会话。

Ollama 优点：

容易安装和使用。
可以运行美洲驼和骆驼毛模型。
真的很快。

Ollama 缺点：

提供有限的模型库。
自己管理模型，您不能重复使用自己的模型。
运行 LLM 的选项不可调整。
还没有 Windows 版本。

6.GPT4ALL

GPT4ALL 是一款易于使用的桌面应用程序，具有直观的 GUI。它支持本地模型运行，并通过 API 密钥提供与 OpenAI 的连接。它因其处理本地文档的上下文、确保隐私的能力而脱颖而出。

优点：

具有友好 UI 的精美替代方案
支持一系列精选模型

缺点：

有限的型号选择
部分型号有商业用途限制

结论

选择合适的工具在本地运行LLM取决于您的需求和专业知识。从 GPT4ALL 等用户友好的应用程序到 Llama.cpp 和基于 Python 的解决方案等更多技术选项，环境提供了多种选择。开源模型正在迎头赶上，提供对数据和隐私的更多控制。

原文地址:https://blog.csdn.net/ddnosh/article/details/135269466 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1740286971256901632.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

6种方法在本地运行LLM

设定期望

1.Hugging Face and Transformers

2.LangChain

3. Llama.cpp

4. Llamafile

5.Ollama

6.GPT4ALL

结论

相关推荐

最近更新

热门阅读