omlx https://github.com/jundot/omlx
LLM 推理,为你的 Mac 优化
连续批处理和分层 KV 缓存,直接从菜单栏管理。

在Mac设备上本地部署大模型(如使用LM Studio或Ollama)时,常面临响应缓慢的问题。这并非模型生成速度慢,而是受到提示词处理(Prefill)阶段的瓶颈限制。特别是在高并发场景下,传统框架的缓存机制不足导致算力浪费。新出现的OMLX推理框架通过引入SSD分页缓存和前缀缓存技术,显著提升了Mac设备,特别是低配版Mac Mini运行本地大模型的效率。

标签: none

添加新评论