Ollama 本地部署是目前普通电脑上跑大模型最简单的方案。不用配 Docker,不用装 CUDA 驱动,一条命令就能把 DeepSeek、Qwen、Llama 拉到本地跑起来。我在 Windows 和 macOS 上分别实测了一周,这篇把完整流程、常见坑点和选模型思路都理清楚。

安装 Ollama

官网 ollama.com 下载对应系统版本。Windows 和 macOS 都是标准安装包,双击下一步就行。Linux 用 curl 一键安装:

1
curl -fsSL https://ollama.com/install.sh | sh

安装完自动以后台服务方式运行。终端输入 ollama --version 确认安装成功。不需要额外配置环境变量或 Python 虚拟环境,Ollama 自带完整的推理运行时。

Windows 用户注意:Ollama 默认安装到 C:\Users\你的用户名\AppData\Local\Programs\Ollama,模型文件存在 C:\Users\你的用户名\.ollama\models。如果 C 盘空间紧张,可以通过环境变量 OLLAMA_MODELS 把模型目录指向其他盘。

macOS 用户:Ollama 以 launchd 服务运行,模型存在 ~/.ollama/models

Docker 用户也可以用官方镜像部署,省去本地环境配置:

1
2
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
docker exec -it ollama ollama pull deepseek-r1:7b

下载并运行模型

Ollama 教程中最实用的一部分:怎么选模型、怎么跑。用 ollama pull 拉模型,ollama run 进入对话:

1
2
3
4
5
6
7
8
9
10
# 下载 DeepSeek 系列(推荐)
ollama pull deepseek-r1:7b # 7B 参数,16GB 内存能跑
ollama pull deepseek-r1:14b # 14B 参数,需 32GB 内存

# 下载 Qwen 系列(中文能力强)
ollama pull qwen3:7b
ollama pull qwen3:14b

# 下载 Llama 系列
ollama pull llama3.2:3b

ollama list 查看已下载的模型,ollama rm modelname 删除不用的。模型文件存在 ~/.ollama/models,占用空间不小,7B 模型约 4-5GB,14B 约 8-9GB。

硬件配置建议

本地运行大模型对硬件有一定要求。实际测试数据:

模型大小最低内存推荐内存显存需求运行速度
3B8GB16GB不需要
7B16GB32GB8GB+中等
14B32GB64GB16GB+慢(CPU 模式)
32B+64GB+128GB+24GB+需 GPU

Windows 下 16GB 内存跑 deepseek-r1:7b,对话首 token 延迟约 2-3 秒,后续 token 生成速度约 15-20 tokens/秒,日常使用够用。如果机器配置低,优先选 3B 或 1.5B 的小模型。

Ollama 本地部署 Windows 的用户注意:杀毒软件有时会拦截模型下载,遇到下载中断先把 Windows Defender 实时保护临时关掉。

配置 API 和集成到开发工具

Ollama 启动后默认监听 http://localhost:11434,兼容 OpenAI 的 /v1/chat/completions 接口。可以直接拿来给 VS Code 插件、Clawd、Codex 等本地 AI 编程工具用——搭配 Claude Code 进阶实战 可以实现完全离线的本地开发环境:

1
2
3
4
5
6
7
8
9
10
import requests

response = requests.post(
"http://localhost:11434/v1/chat/completions",
json={
"model": "deepseek-r1:7b",
"messages": [{"role": "user", "content": "用 Python 写一个快速排序"}]
}
)
print(response.json()["choices"][0]["message"]["content"])

如果想局域网其他机器也能访问,需要设环境变量 OLLAMA_HOST=0.0.0.0:11434,然后重启服务。macOS 用 launchctl setenv,Windows 在系统环境变量里加。

搭配 Open WebUI 可以获得近 ChatGPT 的交互体验。Open WebUI 是一个开源的 LLM 聊天界面,直接对接 Ollama 的 API:

1
2
3
4
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main

启动后浏览器打开 http://localhost:3000,注册一个本地账号就能用。不需要联网,不需要注册外部服务,所有对话数据都在本地。Ollama + Open WebUI 是目前体验最好的本地 ChatGPT 替代方案。如果想进一步把本地模型接入自动化工作流,可以参考 AI Agent 开发教程 里的 LangChain 集成方案。

模型选择对比

这么多开源模型怎么选?实测推荐:

模型参数量中文能力代码能力最低配置适合场景
DeepSeek-R17B-14B⭐⭐⭐⭐⭐⭐⭐⭐⭐16GB编程、推理、日常对话
Qwen37B-14B⭐⭐⭐⭐⭐⭐⭐⭐⭐16GB中文内容创作、翻译
Llama 3.23B⭐⭐⭐⭐⭐8GB低配机器、轻量任务
Mistral7B⭐⭐⭐⭐⭐⭐⭐16GB英文文档、代码补全
Phi-33.8B⭐⭐⭐⭐⭐8GB超低配设备、嵌入式

Ollama 本地部署 DeepSeek 是我最推荐的入门组合——DeepSeek-R1 的推理能力在 7B 规模下表现远超预期,编程任务甚至能接近 GPT-4o 70% 的水平。如果你在纠结本地模型和云端工具怎么选,可以先翻翻这篇 2026 AI 编程工具对比,里面把各自适用场景拆得很清楚。Qwen3 的中文理解和生成能力在这个规模下是最强的,写文章做翻译比 DeepSeek 更自然。

常用命令速查

日常使用记住这几个命令就行:

1
2
3
4
5
6
7
ollama list                    # 查看已下载的模型
ollama pull modelname # 下载模型
ollama run modelname # 运行模型(交互对话)
ollama rm modelname # 删除模型
ollama serve # 手动启动服务
ollama ps # 查看当前加载的模型
ollama show modelname # 查看模型详情(参数量、量化方式)

想自定义系统提示词或调整参数?用 Modelfile:

1
2
3
4
FROM deepseek-r1:7b
SYSTEM "你是一个 Python 编程专家,用中文回答问题"
PARAMETER temperature 0.7
PARAMETER top_p 0.9

保存为 Modelfile 后运行 ollama create my-coder -f Modelfile,之后用 ollama run my-coder 就是你的专属定制模型了。

常见问题

我实测过程中遇到的几个坑:

  1. 下载慢或中断。Ollama 的模型文件从境外 CDN 拉,国内可能很慢。解决:科学上网,或者在 Hugging Face 找国内镜像手动下载后放到 models 目录。

  2. 运行后 CPU 占满、对话卡住。模型超出内存容量了。换更小的模型,或者加内存。Windows 下任务管理器能看到内存占用飙到 95% 以上,这时系统会开始用硬盘当虚拟内存,速度降到几乎不可用。

  3. Ollama 本地部署 DeepSeek 后对话经常跑到一半断掉。一般是内存不足触发 OOM。试试 deepseek-r1:1.5b 小模型,或者关掉其他占用内存的程序。

  4. 中文回答质量差。DeepSeek 和 Qwen 的中文能力在这个规模下表现不错,Llama 系列更偏英文。中文场景优先选 Qwen 系列。