Ollama 本地部署开源大模型完全指南

Ollama 是普通开发者在本地运行开源大模型的低门槛工具。它适合学习、原型验证、隐私敏感的内部任务和本地 AI 编程实验，但不等于“零成本生产方案”。

导读：你可以把这篇当成 Ollama 本地 LLM 部署流程来用。先安装和拉模型，再跑 API 验证，最后评估硬件、延迟、质量和生产边界。

官方来源与核验规则

优先看官方来源：

Ollama 官方网站
Ollama GitHub
Open WebUI GitHub
对应模型的官方 model card / 文档

核验规则：

模型名、大小、运行方式以 Ollama 官方库为准；
性能必须用自己的硬件测试；
不把别人的 tokens/s、显存、速度当成你的结果；
本地模型上线前要测试质量、延迟、并发和失败类型；
涉及内部数据时要确认日志和存储位置。

适合和不适合的场景

场景	是否适合 Ollama	原因
学习本地大模型	适合	安装简单，反馈快
个人离线聊天	适合	数据留在本机
VS Code 接本地模型	适合	可配 Continue 等插件
高频生产 API	谨慎	需要监控、队列、硬件规划
高质量复杂推理	不一定	本地小模型可能不如云端强模型
多用户服务	谨慎	需要并发、鉴权、限流

安装 Ollama

从官网下载安装包。Linux 可用官方安装命令：

1	curl -fsSL https://ollama.com/install.sh \| sh

安装后验证：

1 2	ollama --version ollama list

Windows 用户需要注意模型目录可能占用较大磁盘空间。可通过 OLLAMA_MODELS 指定模型存储目录。macOS 和 Linux 也建议提前规划磁盘。

下载并运行模型

常见命令：

ollama pull llama3.2
ollama run llama3.2
ollama list
ollama rm modelname
ollama show modelname

选模型时不要只看参数量。更重要的是任务类型：

任务	模型选择思路
轻量问答	小模型即可
中文写作	选中文能力好的模型
代码辅助	选代码能力较强的模型
RAG 问答	检索质量比模型大小更关键
批量分类	小模型 + 规则校验可能更省

API 调用验证

Ollama 默认提供本地 API。先跑一个最小请求：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "用一句话确认 Ollama 正常运行"
}'

如果你要接 OpenAI-compatible 工具，再测试 /v1/chat/completions：

import requests

response = requests.post(
    "http://localhost:11434/v1/chat/completions",
    json={
        "model": "llama3.2",
        "messages": [{"role": "user", "content": "Hello"}]
    }
)
print(response.json())

成功标准：接口返回正常 JSON，模型名正确，响应不超时。

接入 VS Code 和 Open WebUI

Continue / VS Code

Ollama 常见用途之一是接 Continue 这类 VS Code AI 插件。适合本地代码解释、轻量生成和离线实验。

接入前先看 VS Code AI 插件选择指南：不是所有任务都适合本地模型。

Open WebUI

Open WebUI 可以提供类似聊天产品的界面：

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

上线前确认数据存储位置、账号权限和网络暴露范围。不要把本地服务直接暴露到公网。

硬件评估 checklist

检查项	为什么重要
内存/显存	决定能跑多大模型
首 token 延迟	影响交互体验
tokens/s	影响长回答速度
并发数	决定能否多人使用
温度和上下文	影响输出稳定性
模型目录空间	大模型占用磁盘

测试公式：

1	本地模型可用性 = 输出质量 + 响应速度 + 稳定性 - 硬件占用 - 运维成本

如果你只是学习，能跑即可；如果要给团队用，必须测并发、错误率和 fallback。

常见问题

问题	可能原因	处理方式
下载慢	网络或镜像源问题	换网络或等待
模型运行卡顿	内存/显存不足	换小模型或降低上下文
API 连接失败	服务未启动或端口不对	检查 `ollama list` 和端口
中文质量差	模型不适合中文	换中文能力更强的模型
磁盘占用大	模型文件过多	`ollama rm` 删除不用模型
局域网访问失败	host 绑定未配置	设置 `OLLAMA_HOST` 并重启