Ollama Qwen3.5 本地部署完整教程(2026):步骤+配置+排错
通义千问 Qwen3.5 是阿里巴巴开源的新一代大语言模型,在中文理解、编码、多模态能力上都有出色表现。配合 Ollama 可以一键在本地运行,隐私数据不出门,完全免费使用。
本文整理了从安装到排错的完整步骤,适合不同配置的参考。
前期准备:硬件要求与模型选择
Ollama 支持 Qwen3.5 多种参数规格,你可以根据自己的硬件配置选择合适的版本:
| 模型规格 | 最低内存要求 | 推荐配置 | 适用场景 |
|---|---|---|---|
| Qwen3 0.6B | 2GB RAM | 4GB RAM | 测试、低配置机器 |
| Qwen3 1.8B | 4GB RAM | 8GB RAM | 简单对话、文本生成 |
| Qwen3 4B | 6GB RAM | 8GB RAM | 日常使用平衡 |
| Qwen3 7B | 8GB RAM | 16GB RAM | 高质量对话、开发 |
| Qwen3 14B | 16GB RAM | 32GB RAM | 复杂推理、长文本 |
| Qwen3 32B | 32GB RAM | 64GB RAM | 专业用途 |
如果你是第一次尝试,建议从 Qwen3 7B 开始,质量和资源占用比较平衡。
Qwen3.5 主要优势:
- 原生更好的中文语言理解支持
- 支持 128k 上下文窗口(7B+ 版本)
- 原生支持工具调用和函数调用
- 提供多模态版本 Qwen-VL 3.5
- 多种量化选项适配不同硬件
分步安装教程
Step 1: 安装 Ollama
Windows:
- 访问 ollama.com 下载安装包
- 运行安装程序,一路下一步即可
- 安装完成后 Ollama 会自动作为服务运行在后台
macOS:
1 | # 使用 Homebrew 安装 |
如果能正常回复,说明部署成功了!
退出交互模式:输入 /bye 或者按 Ctrl+C。
Step 4: 常用管理命令
1 | # 查看已安装模型 |
Step 5: 开启局域网访问
如果你想让其他设备也能访问,可以修改 Ollama 监听地址:
Linux/macOS:
1 | # 启动时指定 |
Windows:
可以通过环境变量或者修改服务配置来实现。
现在你可以通过 http://<你的IP>:11434 从其他设备访问 API。
GPU 加速配置
Ollama 默认会自动检测 NVIDIA/AMD GPU 并启用加速。如果没有自动识别,可以手动配置:
NVIDIA GPU on Linux
确认你已经安装了 NVIDIA 驱动和 CUDA toolkit。Ollama 默认会使用 CUDA 加速。
如果速度仍然很慢,可以检查:
1 | # 查看 Ollama 日志确认 GPU 被识别 |
日志中如果出现 [INFO] NVIDIA GPU detected 说明正常工作。GPU 加速相比 CPU 可以获得 2-5 倍的速度提升。
AMD GPU on Linux
AMD GPU 需要启用 ROCm 支持,Ollama 官方版本已经包含支持:
1 | # 确认你的显卡支持 ROCm 后,设置环境变量启动 |
Windows NVIDIA
Ollama 安装程序会自动配置 CUDA,一般不需要手动修改。如果遇到问题,确认你已安装最新版 NVIDIA CUDA Toolkit。
(可选)Docker Compose 容器化部署
如果你习惯使用 Docker,可以用 Docker Compose 一键部署 Ollama + Qwen3.5:
创建 docker-compose.yml:
1 | version: '3.8' |
启动:
1 | docker-compose up -d |
进入容器拉取模型:
1 | docker exec -it ollama ollama run qwen3:7b |
这种方式适合服务器部署,环境隔离更干净。
Qwen3.5 不同量化级别性能对比
Ollama 提供的模型默认是 4-bit 量化,如果你对质量或速度有特殊需求:
| 量化 | 文件大小 | 质量 | 速度 | 内存占用 |
|---|---|---|---|---|
| 4-bit | 更小 | 接近原文质量损失很小 | 更快 | 更低 |
| 8-bit | 大约翻倍 | 几乎无损 | 稍慢 | 更高 |
建议: 大多数情况下使用默认 4-bit 就足够好了,质量差别人眼很难区分,但省一半内存和下载时间。
常见问题与解决方案
问题 1: 内存不足错误
现象: out of memory 错误,模型无法启动。
解决: 选择更小参数规格的模型,比如从 14B 换成 7B,或者从 7B 换成 4B。
问题 2: GPU 没有被检测到
现象: 推理速度很慢,日志中没有 GPU 相关信息。
解决:
- Linux: 确认 NVIDIA/AMD 驱动正常工作,CUDA/ROCm 安装正确
- Windows: 重装最新版 NVIDIA 驱动,重启 Ollama 服务
- 如果你在 WSL2 运行,GPU 传递需要额外配置
问题 3: CPU 推理速度很慢
现象: 生成一个回复要好几秒甚至十几秒。
解决:
- 这是正常现象,14B+ 模型 CPU 本来就慢
- 建议:7B 是 CPU 实用上限,追求速度用更小模型
- 如果经常用,建议上 GPU 加速
问题 4: Connection refused 连接被拒绝
现象: API 或 WebUI 无法连接。
解决: Ollama 服务没有启动。重启服务:
1 | # Linux systemd |
问题 5: Qwen3.5 思考过程太长/一直输出思考
现象: 模型输出包含大量 <think>...</think> 内容。
解决: 可以关闭思考模式:
1 | ollama run qwen3:7b --no-think |
或者在启动后发送:/set no_think true
进阶使用
多模态 Qwen-VL 3.5
Qwen3.5 还有多模态版本,可以识别图片:
1 | ollama run qwen3-vl |
使用方式和纯文本版本一样,支持图片输入问答。
API 调用示例
Ollama 提供兼容 OpenAI 格式的 API,你可以用它构建自己的应用:
1 | curl http://localhost:11434/api/generate -d '{ |
本地知识库
结合 LangChain 和 Qwen3.5,可以搭建完全本地化的私人知识库问答,隐私完全可控。
总结
现在你已经成功在本地通过 Ollama 部署了 Qwen3.5 大模型,可以开始自由使用了。相比云端 API,本地部署的优势:
- 隐私安全: 数据完全留在你自己机器上
- 完全免费: 开源模型不需要付费
- 离线可用: 不需要网络就能用
- 灵活定制: 可以根据配置选择合适规格
如果你刚接触本地大模型,推荐从 7B 版本开始体验,遇到问题可以对照本文常见问题排查。




