这两年,AI Agent(人工智能代理)无疑是 AI 领域最热门的方向之一。从 OpenAI 推出的 GPTs,到 Anthropic 持续升级的 Claude Code,越来越多的 AI 开始具备“自主完成任务”的能力。它们不仅能理解复杂的口令,还可以调用工具、搜索网页、编写代码,甚至直接控制浏览器和电脑桌面。AI 正在从传统的“聊天助手”,演变为真正能替人类干活的“数字打工人”。
不过,目前绝大多数先进的 Agent 方案都高度依赖云端 API。频繁的工具调用、网页抓取和反思链(Reasoning)会消耗海量的 Token,长期使用的订阅费和 API 账单让不少重度用户望而却步。
最近,法国 AI 初创公司 H Company 正式发布了全新的 Holo 3.1 Agent 专用模型。它最大的亮点在于完全开源、支持本地部署,且原生对 Agent 任务进行了极致优化。配合 OpenClaw(小龙虾) 等 Agent 框架,你可以在自己的电脑上搭建一套 100% 本地化、隐私安全、且完全免费的 AI Agent 系统。
核心优势:作为本地 Agent 专用模型,Holo 3.1 在多项 Agent 场景指标上超越了同尺寸的 Qwen 3.5 35B-A3B 模型。对于不想绑定付费套餐、追求 Token 自由的用户来说,这是目前本地部署的最佳选择。
为什么选择 Llama.cpp 部署?
在本地大模型推理框架中,我们常用的有 Llama.cpp、Ollama 和 LM Studio。但在 Agent 这种需要高频、低延迟交互的场景下,性能表现各有侧重:
综合对比,Llama.cpp 在运行 Agent 时响应速度最快,因此本次测试我们基于 Llama.cpp 展开。
全流程部署教程
第一步:安装 Llama.cpp
前往 GitHub 官方仓库或通过文末的网盘备份下载 Llama.cpp 编译包。
解压后,在 Llama.cpp 的根目录下新建一个名为
models的文件夹,用于存放接下来下载的模型文件。
第二步:模型下载与配置推荐
Holo 3.1 提供了多种参数尺寸,请根据你的显存大小选择合适的 GGUF 格式模型。注意:Agent 任务通常需要视觉能力来识别浏览器界面,因此需要同时下载主模型和对应的视觉模型(mmproj)。
模型下载链接请见文末【资源下载】板块。
第三步:配置一键启动脚本
在 Llama.cpp 根目录下创建一个名为 start_holo.bat 的文本文件,将以下内容复制进去并保存。(注:已修复 24GB 脚本中的模型命名,统一了路径规则)
代码段
@echo off
chcp 65001 >nul
title Holo 3.1 VLM 一键启动器
set LLAMA=llama-server.exe
:MENU
cls
echo ==========================================
echo Holo 3.1 VLM 本地启动器
echo ==========================================
echo.
echo 1. 8GB 显卡推荐(0.8B)
echo 2. 12GB 显卡推荐(4B)
echo 3. 16GB 显卡推荐(9B)
echo 4. 24GB 显卡推荐(35B-A3B)
echo.
echo 5. CPU 纯享模式(4B)
echo.
echo 0. 退出
echo.
set /p CHOICE=请选择您的显卡配置:
if "%CHOICE%"=="1" goto GPU8
if "%CHOICE%"=="2" goto GPU12
if "%CHOICE%"=="3" goto GPU16
if "%CHOICE%"=="4" goto GPU24
if "%CHOICE%"=="5" goto CPU
if "%CHOICE%"=="0" exit
goto MENU
:: ==========================================
:: RTX 8GB 配置
:: ==========================================
:GPU8
"%LLAMA%" ^
-m models\Holo-3.1-0.8B.i1-Q6_K.gguf ^
-ngl 999 -c 8192 -fa ^
--cache-type-k q4_0 --cache-type-v q4_0 ^
--temp 0.2 --top-p 0.9 ^
--host 127.0.0.1 --port 1234
pause
goto MENU
:: ==========================================
:: RTX 12GB 配置
:: ==========================================
:GPU12
"%LLAMA%" ^
-m models\Holo-3.1-4B.Q8_0.gguf ^
--mmproj models\Holo-3.1-4B.mmproj-Q8_0.gguf ^
-ngl 999 -c 16384 -fa ^
--cache-type-k q4_0 --cache-type-v q4_0 ^
--temp 0.2 --top-p 0.9 ^
--host 127.0.0.1 --port 1234
pause
goto MENU
:: ==========================================
:: RTX 16GB 配置
:: ==========================================
:GPU16
"%LLAMA%" ^
-m models\Holo-3.1-9B.Q8_0.gguf ^
--mmproj models\Holo-3.1-9B.mmproj-q8_0.gguf ^
-ngl 999 -c 24576 -fa ^
--cache-type-k q8_0 --cache-type-v q8_0 ^
--temp 0.2 --top-p 0.9 ^
--host 127.0.0.1 --port 1234
pause
goto MENU
:: ==========================================
:: RTX 24GB 配置
:: ==========================================
:GPU24
"%LLAMA%" ^
-m models\Holo-3.1-35B-A3B.Q4_K_M.gguf ^
--mmproj models\Holo-3.1-35B-A3B.mmproj-f16.gguf ^
-ngl 999 -c 65536 --flash-attn on ^
--cache-type-k q8_0 --cache-type-v q8_0 ^
--temp 0.2 --top-p 0.9 --repeat-penalty 1.05 ^
--host 127.0.0.1 --port 1234
pause
goto MENU
:: ==========================================
:: CPU 纯享模式
:: ==========================================
:CPU
"%LLAMA%" ^
-m models\Holo-3.1-4B.Q8_0.gguf ^
-ngl 0 -c 4096 --threads 16 ^
--temp 0.2 ^
--host 127.0.0.1 --port 1234
pause
goto MENU
双击运行脚本,根据你的显卡选择对应选项,当看到终端显示 API 服务已在 [http://127.0.0.1:1234](http://127.0.0.1:1234) 成功挂载,说明本地模型启动成功。
接入 OpenClaw(小龙虾)Agent 框架
有了本地大脑,我们还需要一个执行躯体。这里我们推荐使用 OpenClaw。
1. 一键安装命令
以管理员身份打开终端(Windows 使用 PowerShell,Mac/Linux 使用 Terminal),执行对应的安装命令:
Windows (PowerShell):
powershell -c "irm https://openclaw.ai/install.ps1 | iex"
* **macOS / Linux**:
```bash
curl -fsSL https://openclaw.ai/install.sh | bash
2. 关键配置参数
在 OpenClaw 的初始化配置界面中,按如下提示设置模型提供商(Model Provider):
API Base URL:
[http://127.0.0.1:1234/v1](http://127.0.0.1:1234/v1)API Key (密钥): 留空不需要填写
思考模式 (Reasoning Mode): 建议选择 Off (关闭)。因为 Agent 任务需要频繁的即时动作反馈,关闭思考模式可以大幅压缩等待时间。
3. 安装必备浏览器技能 (Skills)
为了让 Holo 3.1 能够顺畅地控制浏览器上网,我们需要为其安装自动化插件。在终端中分别执行以下命令:
Bash
openclaw skills install agent-browser-cli
openclaw skills install use-my-browser
安装完成后,输入 openclaw gateway 重启服务,或者直接在 OpenClaw 对话框中输入 /new 即可刷新。
实际使用体验:一个字,快!
在实际的网页自动化操作测试中,Holo 3.1 的表现令人惊喜。得益于本地部署的零网络延迟以及 Llama.cpp 的多段优化,它在执行浏览器点击、信息搜集和资料整理时极其丝滑。
相较于之前的 Qwen 3.5 模型,Holo 3.1 在本地 Agent 任务中的响应速度提升了数倍,很多时候指令刚发出去,本地模型就直接秒执行,几乎不需要漫长的等待。
总结
如果你拥有一张性能不错的独立显卡,且日常有大量的网页数据抓取、自动化表格填写、日常信息汇总等 Agent 需求,那么 Holo 3.1 + OpenClaw 无疑是目前最顶级的免费本地解决方案。
它不仅帮你彻底告别了高昂的 Token 费用和断网焦虑,更在隐私安全上做到了极致。快去你的电脑上部署一套,体验真正的“本地 AI 自由”吧!
📥 资源下载链接
Llama.cpp 官方原版:[GitHub 链接] | [网盘备份]
一键启动批处理脚本:[脚本下载]
本文发于 FuCoreAI 博客(https://www.fucoreai.com/),欢迎转载分享!
评论区