Ollama 本地部署开源大模型完全指南
Ollama 本地部署是目前普通电脑上跑大模型最简单的方案。不用配 Docker,不用装 CUDA 驱动,一条命令就能把 DeepSeek、Qwen、Llama 拉到本地跑起来。我在 Windows 和 macOS 上分别实测了一周,这篇把完整流程、常见坑点和选模型思路都理清楚。
安装 Ollama
官网 ollama.com 下载对应系统版本。Windows 和 macOS 都是标准安装包,双击下一步就行。Linux 用 curl 一键安装:
1 | curl -fsSL https://ollama.com/install.sh | sh |
安装完自动以后台服务方式运行。终端输入 ollama --version 确认安装成功。不需要额外配置环境变量或 Python 虚拟环境,Ollama 自带完整的推理运行时。
Windows 用户注意:Ollama 默认安装到 C:\Users\你的用户名\AppData\Local\Programs\Ollama,模型文件存在 C:\Users\你的用户名\.ollama\models。如果 C 盘空间紧张,可以通过环境变量 OLLAMA_MODELS 把模型目录指向其他盘。
macOS 用户:Ollama 以 launchd 服务运行,模型存在 ~/.ollama/models。
Docker 用户也可以用官方镜像部署,省去本地环境配置:
1 | docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama |
下载并运行模型
Ollama 教程中最实用的一部分:怎么选模型、怎么跑。用 ollama pull 拉模型,ollama run 进入对话:
1 | # 下载 DeepSeek 系列(推荐) |
ollama list 查看已下载的模型,ollama rm modelname 删除不用的。模型文件存在 ~/.ollama/models,占用空间不小,7B 模型约 4-5GB,14B 约 8-9GB。
硬件配置建议
本地运行大模型对硬件有一定要求。实际测试数据:
| 模型大小 | 最低内存 | 推荐内存 | 显存需求 | 运行速度 |
|---|---|---|---|---|
| 3B | 8GB | 16GB | 不需要 | 快 |
| 7B | 16GB | 32GB | 8GB+ | 中等 |
| 14B | 32GB | 64GB | 16GB+ | 慢(CPU 模式) |
| 32B+ | 64GB+ | 128GB+ | 24GB+ | 需 GPU |
Windows 下 16GB 内存跑 deepseek-r1:7b,对话首 token 延迟约 2-3 秒,后续 token 生成速度约 15-20 tokens/秒,日常使用够用。如果机器配置低,优先选 3B 或 1.5B 的小模型。
Ollama 本地部署 Windows 的用户注意:杀毒软件有时会拦截模型下载,遇到下载中断先把 Windows Defender 实时保护临时关掉。
配置 API 和集成到开发工具
Ollama 启动后默认监听 http://localhost:11434,兼容 OpenAI 的 /v1/chat/completions 接口。可以直接拿来给 VS Code 插件、Clawd、Codex 等本地 AI 编程工具用——搭配 Claude Code 进阶实战 可以实现完全离线的本地开发环境:
1 | import requests |
如果想局域网其他机器也能访问,需要设环境变量 OLLAMA_HOST=0.0.0.0:11434,然后重启服务。macOS 用 launchctl setenv,Windows 在系统环境变量里加。
搭配 Open WebUI 可以获得近 ChatGPT 的交互体验。Open WebUI 是一个开源的 LLM 聊天界面,直接对接 Ollama 的 API:
1 | docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \ |
启动后浏览器打开 http://localhost:3000,注册一个本地账号就能用。不需要联网,不需要注册外部服务,所有对话数据都在本地。Ollama + Open WebUI 是目前体验最好的本地 ChatGPT 替代方案。如果想进一步把本地模型接入自动化工作流,可以参考 AI Agent 开发教程 里的 LangChain 集成方案。
模型选择对比
这么多开源模型怎么选?实测推荐:
| 模型 | 参数量 | 中文能力 | 代码能力 | 最低配置 | 适合场景 |
|---|---|---|---|---|---|
| DeepSeek-R1 | 7B-14B | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 16GB | 编程、推理、日常对话 |
| Qwen3 | 7B-14B | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 16GB | 中文内容创作、翻译 |
| Llama 3.2 | 3B | ⭐⭐ | ⭐⭐⭐ | 8GB | 低配机器、轻量任务 |
| Mistral | 7B | ⭐⭐⭐ | ⭐⭐⭐⭐ | 16GB | 英文文档、代码补全 |
| Phi-3 | 3.8B | ⭐⭐ | ⭐⭐⭐ | 8GB | 超低配设备、嵌入式 |
Ollama 本地部署 DeepSeek 是我最推荐的入门组合——DeepSeek-R1 的推理能力在 7B 规模下表现远超预期,编程任务甚至能接近 GPT-4o 70% 的水平。如果你在纠结本地模型和云端工具怎么选,可以先翻翻这篇 2026 AI 编程工具对比,里面把各自适用场景拆得很清楚。Qwen3 的中文理解和生成能力在这个规模下是最强的,写文章做翻译比 DeepSeek 更自然。
常用命令速查
日常使用记住这几个命令就行:
1 | ollama list # 查看已下载的模型 |
想自定义系统提示词或调整参数?用 Modelfile:
1 | FROM deepseek-r1:7b |
保存为 Modelfile 后运行 ollama create my-coder -f Modelfile,之后用 ollama run my-coder 就是你的专属定制模型了。
常见问题
我实测过程中遇到的几个坑:
下载慢或中断。Ollama 的模型文件从境外 CDN 拉,国内可能很慢。解决:科学上网,或者在 Hugging Face 找国内镜像手动下载后放到 models 目录。
运行后 CPU 占满、对话卡住。模型超出内存容量了。换更小的模型,或者加内存。Windows 下任务管理器能看到内存占用飙到 95% 以上,这时系统会开始用硬盘当虚拟内存,速度降到几乎不可用。
Ollama 本地部署 DeepSeek 后对话经常跑到一半断掉。一般是内存不足触发 OOM。试试
deepseek-r1:1.5b小模型,或者关掉其他占用内存的程序。中文回答质量差。DeepSeek 和 Qwen 的中文能力在这个规模下表现不错,Llama 系列更偏英文。中文场景优先选 Qwen 系列。





