本地部署大语言模型详细介绍
本地部署大语言模型详细介绍 by R语言数据分析指南
欢迎关注R语言数据分析指南
❝最近小编详细尝试了一下本地部署大语言模型的几种方法,本节来介绍一下个人的一些使用体验,个人观点仅供参考。主要涉及本地部署客户端选择、模型下载、以及后续一些进阶方向。
本地部署方式1
Ollama+docker+openwebui
❝第一种方式通过上述软件组合而成,先安装ollama后安装docker,最后通过docker部署openwebui。最终的界面如下所示。该界面简洁类似于chatGPT的风格。关于该种方法部署可以参考下方链接
https://mp.weixin.qq.com/s/cQ3x3gUIVTR37D-zWeyfyA
❝方法1部署的UI界面主要在于简洁,但是此种方法存在的问题在于安装多款软件,尤其是要安装Docker运行其要耗费至少3G左右内存,其中docker就是占2G。同时通过Ollama下载的本地模型文件也会进行格式转换,非常的不便于后期迁移到其它设备,因此不太推荐此种方式。
本地部署方式2
LM_studio 网址:https://lmstudio.ai/
❝没错通过这种方式只需要下载这一款软件,因为其内置了llama.cpp可以直接运行本地模型,因此不需要安装其它配置软件,同时该软件对Mac的M芯片也做了适配支持MLX模型,下载时注意下载对应格式的模型文件即可。同时改软件只需要将下载的原始模型文件放入本地文件夹即可。
将模型放入右上角模型目录下即可,路径可自己定义,需要注意是双层文件夹,如下所示。
LM_studio_model/mlx-community/DeepSeek-Llama-8B-1.0
模型下载
❝模型主要通过huggingface下载,https://huggingface.co/models。
❝若是使用Mac可下载MLX版本的模型文件,需要注意模型使用LM_studio加载会出现bug。
网址 https://huggingface.co/mlx-community
模型的选择
模型主要分为下方所列版本,精度越高对设备性能要求越高。本地个人电脑通常使用8-bit或4-bit。其区别主要如下所示:
❝上方所列是一个模型的具体文件信息,如图所示模型文件有15G因此要运行此模型,内存要远大于16G估计要达到30G+,且显存也要大。若显存很小内存很大,则只能读入模型运行推理则速度非常慢,因此下载一个适合自己的模型非常重要。
进阶选择
如果只是本地部署现有的模型那基本意义不大,针对核心用户进阶方式大概有两个选择构建RAG知识库与模型微调。
❝在大语言模型(LLM)应用中,RAG(Retrieval-Augmented Generation,检索增强生成) 和 模型微调(Fine-Tuning) 是两种不同的方法,分别用于增强模型的知识能力和适应特定任务。它们的主要区别如下:
❝
工作流程对比
🔹 RAG 工作流程
1. 用户输入查询
2. 检索(Retrieval):从知识库(如向量数据库)中检索相关文档
3. 增强(Augmentation):将检索到的内容拼接到输入中
4. 生成(Generation):LLM 结合输入和检索内容生成回答
🔹 模型微调工作流程
1. 准备训练数据(对话、任务数据)
2. 选择微调方法(LoRA, QLoRA, 全参数微调)
3. 训练(调整模型权重)
4. 推理(直接使用微调后的模型)
关注下方公众号下回更新不迷路
购买介绍
❝本节介绍到此结束,有需要学习R数据可视化的朋友欢迎到淘宝店铺:R语言数据分析指南,购买小编的R语言可视化文档,2025年购买将获取2025年更新的内容,同时将赠送2024年的绘图文档内容。
更新的绘图内容包含数据+代码+注释文档+文档清单,小编只分享案例文档,不额外回答问题,无答疑服务,更新截止2025年12月31日结束,零基础不推荐买。
案例特点
所选案例图均属于个性化分析图表完全适用于论文发表,2025年起提供更加专业的html版注释文档更加直观易学。文档累计上千人次购买拥有良好的社群交流体验。R代码结构清晰易懂,为防止中文乱码提供单独的注释文档R代码结构清晰易懂,2025年起提供更加专业的htnl文档
群友精彩评论
淘宝店铺
2025更新案例图
2024年已更新案例图展示
原文链接