使用go-llama.cpp 运行 yi-01-6b大模型,使用本地CPU运行,速度挺快的

1,视频地址

2,关于llama.cpp 项目

https://github.com/ggerganov/llama.cpp

LaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型(简易 Python 代码示例)手撸的纯 C/C++ 版本,用于模型推理。所谓推理,即是给输入-跑模型-得输出的模型运行过程。

那么,纯 C/C++ 版本有何优势呢?

无需任何额外依赖,相比 Python 代码对 PyTorch 等库的要求,C/C++ 直接编译出可执行文件,跳过不同硬件的繁杂准备;
支持 Apple Silicon 芯片的 ARM NEON 加速,x86 平台则以 AVX2 替代;
具有 F16 和 F32 的混合精度;
支持 4-bit 量化;

golang 的项目地址:

https://github.com/go-skynet/go-llama.cpp

3,准备工作,解决cgo编译问题

关于go-llama.cpp 项目地址:

https://github.com/go-skynet/go-llama.cpp

首先下载模型:

https://hf-mirror.com/TheBloke/Yi-6B-GGUF/tree/main

在这里插入图片描述
然后运行测试:

在这里插入图片描述

虽然模型回答的不太对,但是可以运行了,速度确实还可以。

4,只要是llama.cpp支持的模型就可以

在这里插入图片描述
已经支持很多模型了,都需要测试下效果。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-02-20 13:30:03       94 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-02-20 13:30:03       100 阅读
  3. 在Django里面运行非项目文件

    2024-02-20 13:30:03       82 阅读
  4. Python语言-面向对象

    2024-02-20 13:30:03       91 阅读

热门阅读

  1. react虚拟dom及实现原理

    2024-02-20 13:30:03       42 阅读
  2. Spring学习笔记(四)AOP介绍

    2024-02-20 13:30:03       40 阅读
  3. CSS常用技巧

    2024-02-20 13:30:03       50 阅读
  4. C++BST(二叉搜索树)应用场景

    2024-02-20 13:30:03       55 阅读
  5. Codeforces Round 928 (Div. 4) (A-E)

    2024-02-20 13:30:03       53 阅读
  6. com.google.android.material.tabs.TabLayout

    2024-02-20 13:30:03       53 阅读
  7. AI人工智能,VR虚拟现实与《黑客帝国》

    2024-02-20 13:30:03       61 阅读
  8. SpringBoot 打成jar包后如何获取jar包Resouces下的文件

    2024-02-20 13:30:03       47 阅读
  9. 使用Hutool的ExcelUtil工具导出Excel时遇到的异常

    2024-02-20 13:30:03       52 阅读