通义千问 Qwen3.5 是阿里巴巴开源的新一代大语言模型,在中文理解、编码、多模态能力上都有出色表现。配合 Ollama 可以一键在本地运行,隐私数据不出门,完全免费使用。

本文整理了从安装到排错的完整步骤,适合不同配置的参考。

前期准备:硬件要求与模型选择

Ollama 支持 Qwen3.5 多种参数规格,你可以根据自己的硬件配置选择合适的版本:

模型规格最低内存要求推荐配置适用场景
Qwen3 0.6B2GB RAM4GB RAM测试、低配置机器
Qwen3 1.8B4GB RAM8GB RAM简单对话、文本生成
Qwen3 4B6GB RAM8GB RAM日常使用平衡
Qwen3 7B8GB RAM16GB RAM高质量对话、开发
Qwen3 14B16GB RAM32GB RAM复杂推理、长文本
Qwen3 32B32GB RAM64GB RAM专业用途

如果你是第一次尝试,建议从 Qwen3 7B 开始,质量和资源占用比较平衡。

Qwen3.5 主要优势:

  • 原生更好的中文语言理解支持
  • 支持 128k 上下文窗口(7B+ 版本)
  • 原生支持工具调用和函数调用
  • 提供多模态版本 Qwen-VL 3.5
  • 多种量化选项适配不同硬件

分步安装教程

Step 1: 安装 Ollama

Windows:

  1. 访问 ollama.com 下载安装包
  2. 运行安装程序,一路下一步即可
  3. 安装完成后 Ollama 会自动作为服务运行在后台

macOS:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
# 使用 Homebrew 安装
brew install ollama
# 启动服务
ollama serve
```bash

**Linux (Ubuntu/Debian):**
```bash
curl -fsSL https://ollama.com/install.sh | sh
```bash
Ollama 会自动配置 systemd 服务,开机自启。

安装完成后,在终端验证:
```bash
ollama --version
# 应该输出版本号,说明安装成功
```bash

### Step 2: 拉取 Qwen3.5 模型

根据你刚才选择的规格,拉取对应模型:

```bash
# 7B 版本(推荐大多数用户)
ollama run qwen3:7b

# 其他版本选择
ollama run qwen3:0.6b # 低配置测试
ollama run qwen3:1.8b # 轻量日常
ollama run qwen3:14b # 高性能
ollama run qwen3:32b # 专业级
```bash

第一次运行 `ollama run` 会自动下载模型文件到本地,下载完成后会直接进入交互模式。

### Step 3: 验证运行

进入交互模式后,你可以直接提问测试:

```text
>>> 介绍一下你自己

如果能正常回复,说明部署成功了!

退出交互模式:输入 /bye 或者按 Ctrl+C

Step 4: 常用管理命令

1
2
3
4
5
6
7
8
9
10
11
# 查看已安装模型
ollama list

# 停止运行中的模型
ollama stop qwen3:7b

# 删除模型(释放磁盘空间
ollama rm qwen3:7b

# 更新模型到最新版本
ollama pull qwen3:7b

Step 5: 开启局域网访问

如果你想让其他设备也能访问,可以修改 Ollama 监听地址:

Linux/macOS:

1
2
# 启动时指定
OLLAMA_HOST=0.0.0.0 ollama serve

Windows:
可以通过环境变量或者修改服务配置来实现。

现在你可以通过 http://<你的IP>:11434 从其他设备访问 API。

GPU 加速配置

Ollama 默认会自动检测 NVIDIA/AMD GPU 并启用加速。如果没有自动识别,可以手动配置:

NVIDIA GPU on Linux

确认你已经安装了 NVIDIA 驱动和 CUDA toolkit。Ollama 默认会使用 CUDA 加速。

如果速度仍然很慢,可以检查:

1
2
# 查看 Ollama 日志确认 GPU 被识别
journalctl -u ollama -f

日志中如果出现 [INFO] NVIDIA GPU detected 说明正常工作。GPU 加速相比 CPU 可以获得 2-5 倍的速度提升。

AMD GPU on Linux

AMD GPU 需要启用 ROCm 支持,Ollama 官方版本已经包含支持:

1
2
# 确认你的显卡支持 ROCm 后,设置环境变量启动
HIP_VISIBLE_DEVICES=0 ollama serve

Windows NVIDIA

Ollama 安装程序会自动配置 CUDA,一般不需要手动修改。如果遇到问题,确认你已安装最新版 NVIDIA CUDA Toolkit

(可选)Docker Compose 容器化部署

如果你习惯使用 Docker,可以用 Docker Compose 一键部署 Ollama + Qwen3.5:

创建 docker-compose.yml:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ollama:/root/.ollama
restart: unless-stopped
# NVIDIA GPU 支持取消下面注释
# deploy:
# resources:
# reservations:
# devices:
# - driver: nvidia
# count: all
# capabilities: [gpu]

volumes:
ollama:

启动:

1
docker-compose up -d

进入容器拉取模型:

1
docker exec -it ollama ollama run qwen3:7b

这种方式适合服务器部署,环境隔离更干净。

Qwen3.5 不同量化级别性能对比

Ollama 提供的模型默认是 4-bit 量化,如果你对质量或速度有特殊需求:

量化文件大小质量速度内存占用
4-bit更小接近原文质量损失很小更快更低
8-bit大约翻倍几乎无损稍慢更高

建议: 大多数情况下使用默认 4-bit 就足够好了,质量差别人眼很难区分,但省一半内存和下载时间。

常见问题与解决方案

问题 1: 内存不足错误

现象: out of memory 错误,模型无法启动。

解决: 选择更小参数规格的模型,比如从 14B 换成 7B,或者从 7B 换成 4B。

问题 2: GPU 没有被检测到

现象: 推理速度很慢,日志中没有 GPU 相关信息。

解决:

  • Linux: 确认 NVIDIA/AMD 驱动正常工作,CUDA/ROCm 安装正确
  • Windows: 重装最新版 NVIDIA 驱动,重启 Ollama 服务
  • 如果你在 WSL2 运行,GPU 传递需要额外配置

问题 3: CPU 推理速度很慢

现象: 生成一个回复要好几秒甚至十几秒。

解决:

  • 这是正常现象,14B+ 模型 CPU 本来就慢
  • 建议:7B 是 CPU 实用上限,追求速度用更小模型
  • 如果经常用,建议上 GPU 加速

问题 4: Connection refused 连接被拒绝

现象: API 或 WebUI 无法连接。

解决: Ollama 服务没有启动。重启服务:

1
2
# Linux systemd
sudo systemctl restart ollama

问题 5: Qwen3.5 思考过程太长/一直输出思考

现象: 模型输出包含大量 <think>...</think> 内容。

解决: 可以关闭思考模式:

1
ollama run qwen3:7b --no-think

或者在启动后发送:/set no_think true

进阶使用

多模态 Qwen-VL 3.5

Qwen3.5 还有多模态版本,可以识别图片:

1
ollama run qwen3-vl

使用方式和纯文本版本一样,支持图片输入问答。

API 调用示例

Ollama 提供兼容 OpenAI 格式的 API,你可以用它构建自己的应用:

1
2
3
4
5
curl http://localhost:11434/api/generate -d '{
"model": "qwen3:7b",
"prompt": "你好,请介绍一下Qwen3.5的特点",
"stream": false
}'

本地知识库

结合 LangChain 和 Qwen3.5,可以搭建完全本地化的私人知识库问答,隐私完全可控。

总结

现在你已经成功在本地通过 Ollama 部署了 Qwen3.5 大模型,可以开始自由使用了。相比云端 API,本地部署的优势:

  • 隐私安全: 数据完全留在你自己机器上
  • 完全免费: 开源模型不需要付费
  • 离线可用: 不需要网络就能用
  • 灵活定制: 可以根据配置选择合适规格

如果你刚接触本地大模型,推荐从 7B 版本开始体验,遇到问题可以对照本文常见问题排查。