Ollama DeepSeek 本地部署完整教程(2026):R1/V3/V3 全版本
DeepSeek 近年推出的一系列大模型在推理能力和代码理解上表现出色,配合 Ollama 可以一键在本地运行,完全免费且隐私可控。
本文整理了 DeepSeek 各版本(R1/V3/V4)在 Ollama 下的完整部署指南,包含版本选择、硬件要求、安装步骤、GPU 配置和排错。
前期准备:DeepSeek 版本选择与硬件要求
Ollama 上提供多个 DeepSeek 模型变种,你可以根据硬件配置选择:
| 模型版本 | 参数规模 | 量化 | 最低内存 | 推荐配置 | 适用场景 |
|---|---|---|---|---|---|
| DeepSeek-R1 7B | 7B | 4-bit | 8GB RAM | 16GB RAM + GPU | 日常对话、推理 |
| DeepSeek-R1 14B | 14B | 4-bit | 16GB RAM | 32GB RAM + GPU | 更强推理 |
| DeepSeek-V3 7B | 7B | 4-bit | 8GB RAM | 16GB RAM + GPU | 通用任务 |
| DeepSeek-V3 16B | 16B | 4-bit | 16GB RAM | 32GB RAM + GPU | 高质量生成 |
如果你是第一次尝试本地部署,推荐从 DeepSeek-R1 7B 开始,质量和资源占用平衡得很好。
DeepSeek 主要优势:
- 强力推理能力,特别是数学和逻辑问题
- 优秀的代码理解和生成
- 支持 128k 上下文窗口
- 原生支持思考过程输出(可关闭)
分步安装教程
Step 1: 安装 Ollama
如果你已经安装了 Ollama,可以直接跳到下一步。
Windows:
- 访问 ollama.com 下载官方安装包
- 运行安装程序,完成后 Ollama 自动作为后台服务运行
macOS:
1 | # Homebrew 安装 |
Linux (Ubuntu/Debian):
1 | curl -fsSL https://ollama.com/install.sh | sh |
自动配置 systemd 服务,开机自启。
Step 2: 拉取 DeepSeek 模型
根据你的硬件选择对应的版本:
1 | # 推荐大多数用户: DeepSeek-R1 7B |
第一次运行会自动下载模型文件,下载完成后直接进入交互模式。
Step 3: 验证运行
进入交互模式后,可以直接提问测试:
1 | >>> 解释一下什么是二分查找 |
如果能正常回复,说明部署成功。退出输入 /bye 或者按 Ctrl+C。
Step 4: 常用管理命令
1 | # 查看已安装模型 |
GPU 加速配置
Ollama 默认自动检测 NVIDIA/AMD GPU 并启用加速。如果没有自动识别,可以手动检查配置:
NVIDIA GPU on Linux
确认驱动和 CUDA toolkit 已安装。检查 GPU 是否被识别:
1 | journalctl -u ollama -f |
日志出现 [INFO] NVIDIA GPU detected 说明正常工作。GPU 加速相比 CPU 可以获得 3-6x 速度提升。
如果没有自动识别,确保你已安装最新 NVIDIA 驱动和 CUDA 工具包,然后重启 Ollama 服务:
1 | sudo systemctl restart ollama |
AMD GPU on Linux
AMD GPU 需要 ROCm 支持,Ollama 官方已经内置支持:
1 | # 设置环境变量启动 |
Windows NVIDIA
Ollama 安装程序会自动配置 CUDA,一般不需要手动修改。遇到问题时,重装最新 NVIDIA 驱动后重启 Ollama 服务即可。
关闭思考过程输出
DeepSeek-R1 默认会输出思考过程 <think>...</think>,如果觉得输出太长可以关闭:
1 | ollama run deepseek-r1:7b --no-think |
或者在交互模式中:
1 | /set no_think true |
关闭后回答会更简洁,适合快速问答。
Docker Compose 容器化部署
如果你习惯用 Docker,可以使用 Docker Compose 一键部署:
创建 docker-compose.yml:
1 | version: '3.8' |
启动:
1 | docker-compose up -d |
进入容器拉取模型:
1 | docker exec -it ollama-deepseek ollama run deepseek-r1:7b |
这种方式环境隔离干净,适合服务器部署。
常见问题与解决方案
问题 1: 内存不足无法启动
现象: out of memory 错误。
解决: 选择更小参数规模的模型。如果 14B 不行换成 7B,根据你的内存容量调整。
问题 2: GPU 没有被检测到
现象: 推理速度很慢,日志中没有 GPU 信息。
解决:
- Linux: 确认 CUDA/ROCm 安装正确,驱动版本匹配
- Windows: 重装最新 NVIDIA 驱动,重启 Ollama 服务
- WSL2 需要额外配置 GPU 传递
问题 3: 推理速度很慢
现象: 生成一个回答要十几秒。
解决:
- 这对 CPU 跑 14B+ 模型是正常现象
- 7B 是 CPU 实用上限,追求速度用更小模型
- 如果经常用,建议开启 GPU 加速
问题 4: Connection refused 连接被拒绝
现象: API 无法连接。
解决: Ollama 服务没有启动。重启服务:
1 | # Linux systemd |
问题 5: 思考关闭后怎么重新开启
现象: 关闭思考后想恢复输出。
解决: 交互模式输入:
1 | /set no_think false |
进阶使用
API 调用示例
Ollama 提供兼容 OpenAI 格式的 API,可以直接集成到你自己的应用:
1 | curl http://localhost:11434/api/generate -d '{ |
本地知识库问答
结合 LangChain 和 DeepSeek,可以搭建完全本地化的私人知识库问答,隐私数据不需要上传到云端。
总结
现在你已经成功在本地通过 Ollama 部署了 DeepSeek 大模型,可以开始使用了。相比云端 API,本地部署的优势:
- 隐私安全: 所有数据都在你自己机器上
- 完全免费: 开源模型不需要付费调用
- 离线可用: 不需要网络就能用
- 灵活选择: 根据你的硬件选最合适的版本
如果你刚接触本地大模型,推荐从 7B 版本开始体验,遇到问题对照本文常见问题排查。





