2、在 Ubuntu 上通过 Ollama 部署 DeepSeek-R1-7B 大模型完整指南

牛大圣 • 2025年2月3日 am3:34 • AI

本文将手把手指导您在 Ubuntu 系统中利用 Ollama 框架部署国产开源大模型 DeepSeek-R1-7B，包含 GPU 加速配置、量化模型选择及常见问题解决方案。无论您是 AI 开发者还是技术爱好者，都能在 30 分钟内完成全流程部署。

🚩 前置准备

已安装 Ollama 运行环境（安装教程参考）
NVIDIA 显卡驱动版本 ≥ 535（nvidia-smi 验证）
磁盘空间 ≥ 8GB（推荐 SSD 存储）

🔧 三阶段部署流程

阶段一：获取模型文件

方法 1：直接下载 GGUF 格式（推荐）

# 创建模型目录
mkdir -p ~/.ollama/models

# 下载 4-bit 量化模型
wget -P ~/.ollama/models \
https://huggingface.co/deepseek-ai/DeepSeek-R1-7B-GGUF/resolve/main/deepseek-r1-7b.Q4_K_M.gguf

方法 2：自主转换模型

# 安装转换工具
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make

# 执行量化（示例：6-bit）
./quantize input.fp16.gguf \
output.q6_k.gguf q6_k

📊 量化方案选择建议

量化等级	显存占用	适用场景
Q8_0	10GB	代码生成/数学计算
Q6_K	7GB	多轮对话
Q4_K_M	5GB	轻量级部署

阶段二：创建模型配置文件

# 新建 Modelfile
cat << EOF > ~/.ollama/Modelfile/deepseek-r1-7b
FROM ~/.ollama/models/deepseek-r1-7b.Q4_K_M.gguf

# 性能参数
PARAMETER num_ctx 4096  # 上下文长度
PARAMETER temperature 0.8  # 创意指数
PARAMETER num_gpu 45  # GPU 显存分配比例
EOF

阶段三：注册并运行模型

# 注册模型到 Ollama
ollama create deepseek-r1-7b -f ~/.ollama/Modelfile/deepseek-r1-7b

# 启动推理服务
ollama run deepseek-r1-7b

# 测试生成效果
>>> 请用 Python 实现斐波那契数列生成器

✅ 成功运行验证点

终端输出包含 total duration 时间统计
nvidia-smi 显示显存占用 ≥4GB
生成文本符合逻辑且无乱码

⚙️ 生产级优化方案

GPU 内存优化

# 动态显存分配
PARAMETER numa true  # 启用 NUMA 优化
PARAMETER low_vram  # 低显存模式

API 服务化

# 启动 REST API
ollama serve

# 调用示例
curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1-7b",
  "prompt": "为什么天空是蓝色的？"
}'

🛠️ 常见问题排查表

问题现象	解决方案
Error: CUDA out of memory	降低量化等级或添加 `low_vram` 参数
模型响应速度慢	设置 `PARAMETER num_threads 8`
生成内容乱码	检查模型文件 MD5 校验值

版权声明：
作者：牛大圣
链接：https://nds.cool/?p=237
来源：牛大圣的博客
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

1、在 Ubuntu 桌面版部署 Ollama 完整指南（非 Docker 方案）

< <上一篇

3、使用 Docker Compose 快速部署 Open WebUI 可视化平台

下一篇>>

搜索内容

2、在 Ubuntu 上通过 Ollama 部署 DeepSeek-R1-7B 大模型完整指南

本文将手把手指导您在 Ubuntu 系统中利用 Ollama 框架部署国产开源大模型 DeepSeek-R1-7B，包含 GPU 加速配置、量化模型选择及常见问题解决方案。无论您是 AI 开发者还是技术爱好者，都能在 30 分钟内完成全流程部署。

🚩 前置准备

🔧 三阶段部署流程

阶段一：获取模型文件

方法 1：直接下载 GGUF 格式（推荐）

方法 2：自主转换模型

📊 量化方案选择建议

阶段二：创建模型配置文件

阶段三：注册并运行模型

✅ 成功运行验证点

⚙️ 生产级优化方案

GPU 内存优化

API 服务化

🛠️ 常见问题排查表

取消回复

共有 0 条评论