本地部署大语言模型详细介绍

2025-02-13

Duty

Bloger

Page content

本地部署大语言模型详细介绍 by R语言数据分析指南

欢迎关注R语言数据分析指南

❝
最近小编详细尝试了一下本地部署大语言模型的几种方法，本节来介绍一下个人的一些使用体验，个人观点仅供参考。主要涉及本地部署客户端选择、模型下载、以及后续一些进阶方向。

本地部署方式1

Ollama+docker+openwebui

❝
第一种方式通过上述软件组合而成，先安装ollama后安装docker,最后通过docker部署openwebui。最终的界面如下所示。该界面简洁类似于chatGPT的风格。关于该种方法部署可以参考下方链接

https://mp.weixin.qq.com/s/cQ3x3gUIVTR37D-zWeyfyA

❝
方法1部署的UI界面主要在于简洁，但是此种方法存在的问题在于安装多款软件，尤其是要安装Docker运行其要耗费至少3G左右内存，其中docker就是占2G。同时通过Ollama下载的本地模型文件也会进行格式转换，非常的不便于后期迁移到其它设备,因此不太推荐此种方式。

本地部署方式2

LM_studio 网址：https://lmstudio.ai/

❝
没错通过这种方式只需要下载这一款软件，因为其内置了llama.cpp可以直接运行本地模型，因此不需要安装其它配置软件，同时该软件对Mac的M芯片也做了适配支持MLX模型，下载时注意下载对应格式的模型文件即可。同时改软件只需要将下载的原始模型文件放入本地文件夹即可。

将模型放入右上角模型目录下即可，路径可自己定义，需要注意是双层文件夹，如下所示。

LM_studio_model/mlx-community/DeepSeek-Llama-8B-1.0

模型下载

❝
模型主要通过huggingface下载，https://huggingface.co/models。

❝
若是使用Mac可下载MLX版本的模型文件，需要注意模型使用LM_studio加载会出现bug。
网址 https://huggingface.co/mlx-community

模型的选择

模型主要分为下方所列版本，精度越高对设备性能要求越高。本地个人电脑通常使用8-bit或4-bit。其区别主要如下所示：

❝
上方所列是一个模型的具体文件信息，如图所示模型文件有15G因此要运行此模型，内存要远大于16G估计要达到30G+，且显存也要大。若显存很小内存很大，则只能读入模型运行推理则速度非常慢，因此下载一个适合自己的模型非常重要。

进阶选择

如果只是本地部署现有的模型那基本意义不大，针对核心用户进阶方式大概有两个选择构建RAG知识库与模型微调。

❝
在大语言模型（LLM）应用中，RAG（Retrieval-Augmented Generation，检索增强生成）和模型微调（Fine-Tuning）是两种不同的方法，分别用于增强模型的知识能力和适应特定任务。它们的主要区别如下：

❝
工作流程对比
🔹 RAG 工作流程
1. 用户输入查询
2. 检索（Retrieval）：从知识库（如向量数据库）中检索相关文档
3. 增强（Augmentation）：将检索到的内容拼接到输入中
4. 生成（Generation）：LLM 结合输入和检索内容生成回答
🔹 模型微调工作流程
1. 准备训练数据（对话、任务数据）
2. 选择微调方法（LoRA, QLoRA, 全参数微调）
3. 训练（调整模型权重）
4. 推理（直接使用微调后的模型）