侧边栏壁纸
博主头像
硅基核心 (Silicon Core)

行动起来,活在当下

  • 累计撰写 50 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

8GB 显存“吞下” 35B 大模型?RTX 3070 部署 Qwen3.6-35B-A3B 全攻略

jackyezhang
2026-05-28 / 0 评论 / 0 点赞 / 19 阅读 / 0 字
温馨提示:
部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

在 AI 圈,一直有个“显存焦虑”:35B 参数规模的模型,通常被认为至少需要 24GB 显存(如 3090/4090)才能起步。但随着 Qwen3.6-35B-A3B 这种 MoE (Mixture of Experts) 架构的出现,硬件的边界再次被打破。

今天,我们实测通过 llama.cpp 的优化机制,让一张 RTX 3070 8GB 显卡配合 64GB 内存,成功实现多模态 35B 模型的流畅推理。

核心原理:为什么 8GB 显存够用?

这并非魔法,而是基于 MoE 架构分布式推理 的协同:

  1. MoE 动态激活:Qwen3.6-35B-A3B 虽然有 35B 总参数,但每次推理仅激活约 3B 参数。

  2. CPU Offload (权重卸载):利用 llama.cpp,我们将计算密集的 Attention (注意力机制) 留在 GPU,而将庞大的 Expert (专家层) 放在内存中。

  3. KV Cache 量化:通过 q4_0 量化缓存,极大地压缩了上下文占用的空间。

一、 硬件配置参考

组件

推荐规格

本次测试平台

GPU

8GB+ 显存 (支持 CUDA)

RTX 3070 8GB

RAM

32GB (建议 64GB 以保证流畅)

64GB (32G × 2)

CPU

具备较强的多线程能力

Intel i7-12700

环境

CUDA 12.x + llama.cpp

Windows 11

二、 部署准备

1. 软件环境

2. 模型下载

我们需要 GGUF 格式的模型文件:

  • 主模型Qwen3.6-35B-A3B-UD-Q4_K_M.gguf点击下载

  • 多模态插件mmproj-BF16.gguf (开启视觉识别的关键,否则无法上传图片)

三、 深度优化:启动脚本详解

为了在 8G 显存上压榨性能,我们需要对 llama-server 命令进行精细化调整。

优化版 .bat 脚本

代码段

@echo off
chcp 65001 >nul
:: 设置 llama.cpp 所在目录
cd /d "D:\AI\llama-bin-win-cuda"

llama-server.exe ^
  -m "models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
  --mmproj "models\mmproj-BF16.gguf" ^
  -ngl 99 ^
  --n-cpu-moe 999 ^
  --flash-attn on ^
  -c 32768 ^
  -t 12 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --mlock ^
  --host 127.0.0.1 ^
  --port 8080

pause

关键参数说明:

  • -ngl 99:尽可能将层数加载到 GPU。

  • --n-cpu-moe 999核心参数。强制让专家层在 CPU/内存中运行,腾出显存空间。

  • --flash-attn:启用闪速注意力机制,大幅降低长文本下的显存压力。

  • --cache-type-k/v q4_0:对 KV 缓存进行 4-bit 量化,进一步节省空间。

  • --mlock:锁定内存,防止系统将模型数据交换到虚拟内存导致卡顿。

四、 运行与实测

  1. 运行脚本后,终端显示 HTTP server listening 即可。

  2. 打开浏览器访问 http://127.0.0.1:8080

  3. 多模态测试:尝试上传一张复杂的电路图或风景照。得益于 mmproj 的加载,Qwen3.6 能在本地精准识别图像细节。

结语

Qwen3.6-35B-A3B 的这种“分而治之”的架构,为普通开发者在消费级显卡上运行大模型提供了可能。对于硬件设计师或嵌入式开发者来说,这意味着我们可以在不增加昂贵算力成本的前提下,本地部署更具“智慧”的 AI 助手。

提示:如果推理速度过慢,请检查内存频率。在 MoE 架构下,内存带宽是 CPU Offload 模式下的主要瓶颈。

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区