DeepSeek 近年推出的一系列大模型在推理能力和代码理解上表现出色,配合 Ollama 可以一键在本地运行,完全免费且隐私可控。

本文整理了 DeepSeek 各版本(R1/V3/V4)在 Ollama 下的完整部署指南,包含版本选择、硬件要求、安装步骤、GPU 配置和排错。

前期准备:DeepSeek 版本选择与硬件要求

Ollama 上提供多个 DeepSeek 模型变种,你可以根据硬件配置选择:

模型版本参数规模量化最低内存推荐配置适用场景
DeepSeek-R1 7B7B4-bit8GB RAM16GB RAM + GPU日常对话、推理
DeepSeek-R1 14B14B4-bit16GB RAM32GB RAM + GPU更强推理
DeepSeek-V3 7B7B4-bit8GB RAM16GB RAM + GPU通用任务
DeepSeek-V3 16B16B4-bit16GB RAM32GB RAM + GPU高质量生成

如果你是第一次尝试本地部署,推荐从 DeepSeek-R1 7B 开始,质量和资源占用平衡得很好。

DeepSeek 主要优势:

  • 强力推理能力,特别是数学和逻辑问题
  • 优秀的代码理解和生成
  • 支持 128k 上下文窗口
  • 原生支持思考过程输出(可关闭)

分步安装教程

Step 1: 安装 Ollama

如果你已经安装了 Ollama,可以直接跳到下一步。

Windows:

  1. 访问 ollama.com 下载官方安装包
  2. 运行安装程序,完成后 Ollama 自动作为后台服务运行

macOS:

1
2
3
4
# Homebrew 安装
brew install ollama
# 启动服务
ollama serve

Linux (Ubuntu/Debian):

1
curl -fsSL https://ollama.com/install.sh | sh

自动配置 systemd 服务,开机自启。

Step 2: 拉取 DeepSeek 模型

根据你的硬件选择对应的版本:

1
2
3
4
5
6
7
# 推荐大多数用户: DeepSeek-R1 7B
ollama run deepseek-r1:7b

# 其他版本选择
ollama run deepseek-r1:14b # 更高推理质量
ollama run deepseek-v3:7b # DeepSeek V3 7B
ollama run deepseek-v3:16b # DeepSeek V3 16B

第一次运行会自动下载模型文件,下载完成后直接进入交互模式。

Step 3: 验证运行

进入交互模式后,可以直接提问测试:

1
>>> 解释一下什么是二分查找

如果能正常回复,说明部署成功。退出输入 /bye 或者按 Ctrl+C

Step 4: 常用管理命令

1
2
3
4
5
6
7
8
9
10
11
# 查看已安装模型
ollama list

# 停止运行中的模型
ollama stop deepseek-r1:7b

# 删除模型释放磁盘空间
ollama rm deepseek-r1:7b

# 更新模型到最新版本
ollama pull deepseek-r1:7b

GPU 加速配置

Ollama 默认自动检测 NVIDIA/AMD GPU 并启用加速。如果没有自动识别,可以手动检查配置:

NVIDIA GPU on Linux

确认驱动和 CUDA toolkit 已安装。检查 GPU 是否被识别:

1
journalctl -u ollama -f

日志出现 [INFO] NVIDIA GPU detected 说明正常工作。GPU 加速相比 CPU 可以获得 3-6x 速度提升。

如果没有自动识别,确保你已安装最新 NVIDIA 驱动和 CUDA 工具包,然后重启 Ollama 服务:

1
sudo systemctl restart ollama

AMD GPU on Linux

AMD GPU 需要 ROCm 支持,Ollama 官方已经内置支持:

1
2
# 设置环境变量启动
HIP_VISIBLE_DEVICES=0 ollama serve

Windows NVIDIA

Ollama 安装程序会自动配置 CUDA,一般不需要手动修改。遇到问题时,重装最新 NVIDIA 驱动后重启 Ollama 服务即可。

关闭思考过程输出

DeepSeek-R1 默认会输出思考过程 <think>...</think>,如果觉得输出太长可以关闭:

1
ollama run deepseek-r1:7b --no-think

或者在交互模式中:

1
/set no_think true

关闭后回答会更简洁,适合快速问答。

Docker Compose 容器化部署

如果你习惯用 Docker,可以使用 Docker Compose 一键部署:

创建 docker-compose.yml:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama-deepseek
ports:
- "11434:11434"
volumes:
- ollama:/root/.ollama
restart: unless-stopped
# NVIDIA GPU 支持取消下面注释
# deploy:
# resources:
# reservations:
# devices:
# - driver: nvidia
# count: all
# capabilities: [gpu]

volumes:
ollama:

启动:

1
docker-compose up -d

进入容器拉取模型:

1
docker exec -it ollama-deepseek ollama run deepseek-r1:7b

这种方式环境隔离干净,适合服务器部署。

常见问题与解决方案

问题 1: 内存不足无法启动

现象: out of memory 错误。

解决: 选择更小参数规模的模型。如果 14B 不行换成 7B,根据你的内存容量调整。

问题 2: GPU 没有被检测到

现象: 推理速度很慢,日志中没有 GPU 信息。

解决:

  • Linux: 确认 CUDA/ROCm 安装正确,驱动版本匹配
  • Windows: 重装最新 NVIDIA 驱动,重启 Ollama 服务
  • WSL2 需要额外配置 GPU 传递

问题 3: 推理速度很慢

现象: 生成一个回答要十几秒。

解决:

  • 这对 CPU 跑 14B+ 模型是正常现象
  • 7B 是 CPU 实用上限,追求速度用更小模型
  • 如果经常用,建议开启 GPU 加速

问题 4: Connection refused 连接被拒绝

现象: API 无法连接。

解决: Ollama 服务没有启动。重启服务:

1
2
# Linux systemd
sudo systemctl restart ollama

问题 5: 思考关闭后怎么重新开启

现象: 关闭思考后想恢复输出。

解决: 交互模式输入:

1
/set no_think false

进阶使用

API 调用示例

Ollama 提供兼容 OpenAI 格式的 API,可以直接集成到你自己的应用:

1
2
3
4
5
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:7b",
"prompt": "写一个二分查找的 Python 实现",
"stream": false
}'

本地知识库问答

结合 LangChain 和 DeepSeek,可以搭建完全本地化的私人知识库问答,隐私数据不需要上传到云端。

总结

现在你已经成功在本地通过 Ollama 部署了 DeepSeek 大模型,可以开始使用了。相比云端 API,本地部署的优势:

  • 隐私安全: 所有数据都在你自己机器上
  • 完全免费: 开源模型不需要付费调用
  • 离线可用: 不需要网络就能用
  • 灵活选择: 根据你的硬件选最合适的版本

如果你刚接触本地大模型,推荐从 7B 版本开始体验,遇到问题对照本文常见问题排查。