【AI大模型】这可能是最简单的本地大模型工具，无须部署，一键使用

目前大部分免费使用的大模型都是通用模型，就那几种，虽然可以通过提示词约束，但是内容生成大部分时候只是差强人意。本地部署，你将拥有整个开源世界的微调模型，医疗，法律，学术，动漫，感情，你即使不去定制自己的模型，也将拥有专业的各领域专家来帮你解决你能想到的大部分问题。更不必说定制自己的专属模型的可能性。

成本和体验的优化：

首先承认大部分开源模型的上限是没有闭源模型高的，但是很多时候闭源模型的响应感受会受到网络，当前访问人数的限制。除非你愿意开会员，即使你愿意开会员，目前除了gpt-4o。大部门模型的响应是一个字一个字往外蹦的，尤其某些厂商做的恶心限制，离开网页就停止输出（某一言）如果你本地有一个还行的显卡，你会感受到原来大模型回答原来可以很迅速。

工具功能特点和使用方式介绍：

下载即exe，安装后即可使用，本体不到500m（提供mac和linux版本）

首页提供搜索功能和一些模型的推荐

你可以直接搜索并下载开源世界的大模型（目前看基本上huggingface，需要梯子）并下载使用，推荐模型会给出介绍。如他的来源是什么，他是多少参数的大模型，什么功能，是否经过量化处理，本地运行至少需求多少内存，占用多少硬盘空间。

模型下载管理：

注意！无论设置什么目录，模型目录必须有如下层级结构，否则会找不到模型：

聊天界面：

模型偏好设置

在聊天界面右上角有个设置功能，可以帮助我们更好的个性化使用，我会给出一些比较常用的参数设置解释

模型初始化角色配置

Preset 可以选择不同模型的初始化设置，你也可以设置自定义的模型使用配置，包括不限于，系统角色初始化提示词（system prompt）,回答的随机程度，系统使用内存和显存的占比等。

模型回答内容控制：

设置模型记忆上下文长度（content length），采样温度(temperature)介于 0 和 1 之间。较高的值（如 0.7）将使输出更加随机，而较低的值（如 0.2）将使其更加集中和确定性，最大生成内容长度（tokens to generate），默认-1由大模型决定生成长度。

模型内容质量控制

Top k ：模型回复时所考虑的回复质量占总体回复的质量比例，总体来说比例越高，回答的质量越高，效果也越单一。

Repeat penalty: 模型重复惩罚，越高模型回答的内容重复性越低

CPU threads: 占用线程。经过尝试，增加占用线程对模型响应速度有少量提升，效果不明显。

显存内存使用占比：

没什么可说的，显存能撑住的情况下，拉到最大，内存的速度比显存慢多了。

使用速度体验：

2060 8g 显卡，7B Q4量化模型（基于llama3 微调的中文模型）。生成token速度为31t/s左右（比大部分网络模型响应快一倍左右），感受还是很不错的，如果完全不使用显存只使用内存，速度约5t/s 只能说能用。

kimi效果：

这个软件可以直接搜索官网mstudio.ai下载。

无法下载模型的小伙伴我也在我的公众号中打包了，我所使用的中文llama3模型（Llama3-8B-Chinese-Chat-q4_0-v2_1，和原始英文模型下载（Meta-Llama-3-8B-Instruct-Q4_K_M）已经软件的整合包下载。

后台回复 LmStudio 即可 ！每天还有更多教程和AI资讯分享！

——因为热爱的AI漫谈社

原文地址:https://blog.csdn.net/qazzsq2420/article/details/139205034 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1794423328304402432.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部