什么值得买 03-19
Openclaw+本地模型史诗级加强!oMLX碾压ollama拯救你的Mac养虾场
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

作者:柳岸泉涌

这两天 GitHub 上又爆出一个神级工具,短短几天 star 数已经从 100+ 干到了现在的 5K+(截至目前,马上破 6K),这就是 oMLX,一个专门为 Apple Silicon 设计的本地大模型部署平台。

图片

你的 openclaw 连接本地模型后,是不是经常一个问题等半天没回应,好不如有响应了,却是

Context overflow: prompt too large for the model. Try /reset ( or /new ) to start a fresh session, or use a larger-context model.

提示词太长的报错?快来跟着我更新设置,把小龙虾从能用变成好用吧。

第一步、卸载 ollama

oMLX 不是 ollama 的扩展,不需要 ollama。卸载 ollama 并删除模型文件,释放磁盘空间,后面会用到。没有安装 ollama 的直接跳过。

第二步、下载安装 oMLX

oMLX 只支持 Apple 的 M 系列芯片!

访问 下载 macOS 版本对应安装包(oMLX 是基于 Python 运行的,macOS 15.x 默认 Python 是 2.x,26 以后是 3.x,所以分不同安装包。盲猜,未验证),安装拖进 Application 就行了,简单就不放截图了。

启动 oMLX,设置 API key(一会会用到)和端口号,点击启动服务,点击 Open Admin Panel & Close 打开 oMLX 管理面板。

图片

第三步、下载模型

默认界面是英文,可以先到 Settings-Global Settings-Language 改成中文即可。

然后点击模型 - 下载器,点击下方的加载推荐模型,会加载模型列表。oMLX 会读取系统配置,要求内存大的模型就会有内存偏紧提示,会影响整体使用体验,不推荐使用。

oMLX 还非常友好的提供国内魔塔镜像源,方便没法科学上网的小伙伴,作者虽然是个韩国银(可能),还是蛮懂国情的。

各位根据自己的配置选择适合的模型,我的 macmini 是 M4 的丐版,这里选的是 qwen3.5-4b 的优化版。9b 版本也可以部署,后面会提到原因为什么换掉。

第四步、部署 openclaw,配置模型

安装过程不再赘述,能看到这的应该都不止部署过一次了,只说下怎么配置模型这块。

openclaw config

模型这里选择倒数第二个 Custom Provider

图片

url

如果没改过端口,默认 端点里复制

图片

api key

第二步安装时设定的那个,也可以留空,前提是在设置了开启这个开关且 openclaw 和 oMLX 在一台机器上。

图片

下一步显示验证成功就可以正常使用了。

图片

第五步、修改 oMLX 设置 -至关重要

oMLX 之所以能比 ollama 快,就在于把一部分的上下文存储到硬盘上,而不是全都放在内存里,这也是为什么第一步要求把 ollama 卸载并删除模型文件的原因。

以下几个参数是按照 Macmini M4 16+256 的最低配置来设定的,更高配置可以把值往大里加。

图片

第六步、 增加上下文长度

openclaw 的上下文长度最小是 160K,所以如果大模型的上下文长度小于这个值,就会频繁报 Context overflow: prompt too large for the model. Try /reset ( or /new ) to start a fresh session, or use a larger-context model. 提示词太长的错。qwen3.5:4b 默认的上下文长度是 32K,我这里直接后面加个零放到到 10 倍,3 天使用下来没遇到过提示词过长的报错了。

图片

另外把这几项也选成你安装的模型。

图片

图片

最后,说说为啥不选 qwen3.5:9b。9b 及以上的 qwen3.5 默认是开启了思考模式的,这就导致给 openclaw 下发个指令,状态图标都超时消失了,还没回复,也不知道是哪块出问题了。其实是 qwen3.5:9b 还没结束思考过程,在 oMLX 的聊天页面使用 qwen3.5:9b 对话可以明显的思考过程。而 oMLX 又没有禁止思考的开关(安装时 oMLX 是 v0.2.16,2.18 版本增加了思考推理模型的预算,应该可以消除思考增加的相应时长

下图是使用 qwen3.5:4b 模型的 token 处理速度,简单问题 openclaw 一般会在半分钟内给出回答,复杂点的会有 1~2 分钟,总算不会像 ollama 那样十几分钟半小时都没反应的情况了,小龙虾也算真的活起来了。

本文来自什么值得买网站(www.smzdm.com)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

apple python macos 韩国 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论