Ollama DeepSeek 本地部署完整教程（2026）：R1/V3/V3 全版本

DeepSeek 近年推出的一系列大模型在推理能力和代码理解上表现出色，配合 Ollama 可以一键在本地运行，完全免费且隐私可控。

本文整理了 DeepSeek 各版本（R1/V3/V4）在 Ollama 下的完整部署指南，包含版本选择、硬件要求、安装步骤、GPU 配置和排错。

前期准备：DeepSeek 版本选择与硬件要求

Ollama 上提供多个 DeepSeek 模型变种，你可以根据硬件配置选择：

模型版本	参数规模	量化	最低内存	推荐配置	适用场景
DeepSeek-R1 7B	7B	4-bit	8GB RAM	16GB RAM + GPU	日常对话、推理
DeepSeek-R1 14B	14B	4-bit	16GB RAM	32GB RAM + GPU	更强推理
DeepSeek-V3 7B	7B	4-bit	8GB RAM	16GB RAM + GPU	通用任务
DeepSeek-V3 16B	16B	4-bit	16GB RAM	32GB RAM + GPU	高质量生成

如果你是第一次尝试本地部署，推荐从 DeepSeek-R1 7B 开始，质量和资源占用平衡得很好。

DeepSeek 主要优势：

强力推理能力，特别是数学和逻辑问题
优秀的代码理解和生成
支持 128k 上下文窗口
原生支持思考过程输出（可关闭）

分步安装教程

Step 1: 安装 Ollama

如果你已经安装了 Ollama，可以直接跳到下一步。

Windows:

访问 ollama.com 下载官方安装包
运行安装程序，完成后 Ollama 自动作为后台服务运行

macOS:

# Homebrew 安装
brew install ollama
# 启动服务
ollama serve

Linux (Ubuntu/Debian):

1	curl -fsSL https://ollama.com/install.sh \| sh

自动配置 systemd 服务，开机自启。

Step 2: 拉取 DeepSeek 模型

根据你的硬件选择对应的版本：

# 推荐大多数用户: DeepSeek-R1 7B
ollama run deepseek-r1:7b

# 其他版本选择
ollama run deepseek-r1:14b       # 更高推理质量
ollama run deepseek-v3:7b         # DeepSeek V3 7B
ollama run deepseek-v3:16b        # DeepSeek V3 16B

第一次运行会自动下载模型文件，下载完成后直接进入交互模式。

Step 3: 验证运行

进入交互模式后，可以直接提问测试：

1	>>> 解释一下什么是二分查找

如果能正常回复，说明部署成功。退出输入 /bye 或者按 Ctrl+C。

Step 4: 常用管理命令

# 查看已安装模型
ollama list

# 停止运行中的模型
ollama stop deepseek-r1:7b

# 删除模型释放磁盘空间
ollama rm deepseek-r1:7b

# 更新模型到最新版本
ollama pull deepseek-r1:7b

GPU 加速配置

Ollama 默认自动检测 NVIDIA/AMD GPU 并启用加速。如果没有自动识别，可以手动检查配置：

NVIDIA GPU on Linux

确认驱动和 CUDA toolkit 已安装。检查 GPU 是否被识别：

1	journalctl -u ollama -f

日志出现 [INFO] NVIDIA GPU detected 说明正常工作。GPU 加速相比 CPU 可以获得 3-6x 速度提升。

如果没有自动识别，确保你已安装最新 NVIDIA 驱动和 CUDA 工具包，然后重启 Ollama 服务：

1	sudo systemctl restart ollama

AMD GPU on Linux

AMD GPU 需要 ROCm 支持，Ollama 官方已经内置支持：

1 2	# 设置环境变量启动 HIP_VISIBLE_DEVICES=0 ollama serve

Windows NVIDIA

Ollama 安装程序会自动配置 CUDA，一般不需要手动修改。遇到问题时，重装最新 NVIDIA 驱动后重启 Ollama 服务即可。

关闭思考过程输出

DeepSeek-R1 默认会输出思考过程 <think>...</think>，如果觉得输出太长可以关闭：

1	ollama run deepseek-r1:7b --no-think

或者在交互模式中：

1	/set no_think true

关闭后回答会更简洁，适合快速问答。

Docker Compose 容器化部署

如果你习惯用 Docker，可以使用 Docker Compose 一键部署：

创建 docker-compose.yml:

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama-deepseek
    ports:
      - "11434:11434"
    volumes:
      - ollama:/root/.ollama
    restart: unless-stopped
    # NVIDIA GPU 支持取消下面注释
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - driver: nvidia
    #           count: all
    #           capabilities: [gpu]

volumes:
  ollama:

启动：

1	docker-compose up -d

进入容器拉取模型：

1	docker exec -it ollama-deepseek ollama run deepseek-r1:7b

这种方式环境隔离干净，适合服务器部署。

常见问题与解决方案

问题 1: 内存不足无法启动

现象: out of memory 错误。

解决: 选择更小参数规模的模型。如果 14B 不行换成 7B，根据你的内存容量调整。

问题 2: GPU 没有被检测到

现象: 推理速度很慢，日志中没有 GPU 信息。

解决:

Linux: 确认 CUDA/ROCm 安装正确，驱动版本匹配
Windows: 重装最新 NVIDIA 驱动，重启 Ollama 服务
WSL2 需要额外配置 GPU 传递

问题 3: 推理速度很慢

现象: 生成一个回答要十几秒。

解决:

这对 CPU 跑 14B+ 模型是正常现象
7B 是 CPU 实用上限，追求速度用更小模型
如果经常用，建议开启 GPU 加速

问题 4: Connection refused 连接被拒绝

现象: API 无法连接。

解决: Ollama 服务没有启动。重启服务：

1 2	# Linux systemd sudo systemctl restart ollama

问题 5: 思考关闭后怎么重新开启

现象: 关闭思考后想恢复输出。

解决: 交互模式输入：

1	/set no_think false

进阶使用

API 调用示例

Ollama 提供兼容 OpenAI 格式的 API，可以直接集成到你自己的应用：

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:7b",
  "prompt": "写一个二分查找的 Python 实现",
  "stream": false
}'

本地知识库问答

结合 LangChain 和 DeepSeek，可以搭建完全本地化的私人知识库问答，隐私数据不需要上传到云端。

总结

现在你已经成功在本地通过 Ollama 部署了 DeepSeek 大模型，可以开始使用了。相比云端 API，本地部署的优势：

隐私安全: 所有数据都在你自己机器上
完全免费: 开源模型不需要付费调用
离线可用: 不需要网络就能用
灵活选择: 根据你的硬件选最合适的版本

如果你刚接触本地大模型，推荐从 7B 版本开始体验，遇到问题对照本文常见问题排查。