2、在 Ubuntu 上通过 Ollama 部署 DeepSeek-R1-7B 大模型完整指南

本文将手把手指导您在 Ubuntu 系统中利用 Ollama 框架部署国产开源大模型 DeepSeek-R1-7B,包含 GPU 加速配置、量化模型选择及常见问题解决方案。无论您是 AI 开发者还是技术爱好者,都能在 30 分钟内完成全流程部署。

🚩 前置准备

  • 已安装 Ollama 运行环境(安装教程参考
  • NVIDIA 显卡驱动版本 ≥ 535(nvidia-smi 验证)
  • 磁盘空间 ≥ 8GB(推荐 SSD 存储)

🔧 三阶段部署流程

阶段一:获取模型文件

方法 1:直接下载 GGUF 格式(推荐)

# 创建模型目录
mkdir -p ~/.ollama/models

# 下载 4-bit 量化模型
wget -P ~/.ollama/models \
https://huggingface.co/deepseek-ai/DeepSeek-R1-7B-GGUF/resolve/main/deepseek-r1-7b.Q4_K_M.gguf

方法 2:自主转换模型

# 安装转换工具
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make

# 执行量化(示例:6-bit)
./quantize input.fp16.gguf \
output.q6_k.gguf q6_k

📊 量化方案选择建议

量化等级 显存占用 适用场景
Q8_0 10GB 代码生成/数学计算
Q6_K 7GB 多轮对话
Q4_K_M 5GB 轻量级部署

阶段二:创建模型配置文件

# 新建 Modelfile
cat << EOF > ~/.ollama/Modelfile/deepseek-r1-7b
FROM ~/.ollama/models/deepseek-r1-7b.Q4_K_M.gguf

# 性能参数
PARAMETER num_ctx 4096  # 上下文长度
PARAMETER temperature 0.8  # 创意指数
PARAMETER num_gpu 45  # GPU 显存分配比例
EOF

阶段三:注册并运行模型

# 注册模型到 Ollama
ollama create deepseek-r1-7b -f ~/.ollama/Modelfile/deepseek-r1-7b

# 启动推理服务
ollama run deepseek-r1-7b

# 测试生成效果
>>> 请用 Python 实现斐波那契数列生成器

✅ 成功运行验证点

  • 终端输出包含 total duration 时间统计
  • nvidia-smi 显示显存占用 ≥4GB
  • 生成文本符合逻辑且无乱码

⚙️ 生产级优化方案

GPU 内存优化

# 动态显存分配
PARAMETER numa true  # 启用 NUMA 优化
PARAMETER low_vram  # 低显存模式

API 服务化

# 启动 REST API
ollama serve

# 调用示例
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1-7b",
  "prompt": "为什么天空是蓝色的?"
}'

🛠️ 常见问题排查表

问题现象 解决方案
Error: CUDA out of memory 降低量化等级或添加 low_vram 参数
模型响应速度慢 设置 PARAMETER num_threads 8
生成内容乱码 检查模型文件 MD5 校验值

版权声明:
作者:牛大圣
链接:https://nds.cool/?p=237
来源:牛大圣的博客
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>