一、环境准备
- 操作系统:Ubuntu 22.04 LTS 或更新版本
- 硬件要求:
- CPU:4 核及以上
- 内存:16GB+
- GPU(可选):NVIDIA GTX 1060 6GB+/RTX 系列(推荐)
二、基础环境配置
步骤 1:安装系统依赖
sudo apt update && sudo apt upgrade -y
sudo apt install -y curl git-lfs build-essential cmake python3-pip
步骤 2:配置 NVIDIA 显卡驱动
# 自动安装推荐驱动
sudo ubuntu-drivers autoinstall
sudo reboot
使用 nvidia-smi 验证驱动安装
三、安装 Ollama 服务
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 启动服务
sudo systemctl start ollama
sudo systemctl enable ollama
四、部署 DeepSeek-R1-7B 模型
方法 1:使用预转换模型
mkdir -p ~/.ollama/models
wget -P ~/.ollama/models https://huggingface.co/模型路径/deepseek-r1-7b.Q4_K_M.gguf
方法 2:手动转换模型
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
./quantize ~/deepseek-r1-7b.f16.gguf ~/deepseek-r1-7b.Q4_K_M.gguf Q4_K_M
五、模型服务配置
# 创建 Modelfile
echo 'FROM ~/.ollama/models/deepseek-r1-7b.Q4_K_M.gguf
PARAMETER num_ctx 4096' > ~/.ollama/Modelfile/deepseek
# 注册模型
ollama create deepseek-r1-7b -f ~/.ollama/Modelfile/deepseek
六、运行验证
# 命令行交互测试
ollama run deepseek-r1-7b "解释量子计算的基本原理"
# 监控 GPU 状态
watch -n 1 nvidia-smi
常见问题解决
问题现象 |
解决方案 |
模型加载失败 |
检查文件权限:sudo chown -R $USER:$USER ~/.ollama |
显存不足错误 |
修改 Modelfile 的 num_gpu 参数降低显存分配比例 |
最佳实践建议
- 优先使用 4-bit 量化模型平衡性能与精度
- 定期执行
ollama prune
清理旧模型缓存
- 生产环境建议配合 Nginx 做反向代理
延伸阅读
共有 1 条评论