Mac ローカル LLM は Ollama と MLX どちら？

デフォルトは Ollama。MLX はオフラインベンチ、CI 再現、LoRA 微調整、自前推論、極限パラメータ実験向け。Claude Code / Cursor は Ollama :11434。

Mac ローカル LLM のデフォルトは？

Ollama。1 コマンドでモデル起動、HTTP と OpenAI 互換 API を標準搭載。

MLX が必要なのはいつ？

精密ベンチ、CI 再現、学習・微調整、自前推論、量子化・decoding 制御が必要なとき。

ローカル LLM が遅い — MLX に変える？

まず swap とモデルサイズを確認。16GB で 14B はフレームワーク変更では改善しにくい。

Mac ローカル LLM は Ollama か MLX か？デフォルトのルールはシンプル

Q: MLX の方が速いのでは？

ベンチでは 3%–12% 程度の差もあるが、Agent ではメモリと安定性が先。デフォルトは Ollama。

最初に聞く質問が、よくズレている

Mac でローカル LLM を始めると、まず出てくるのはこういう質問です。

「Ollama と MLX、どっちがいい？」

M4 Mac Mini ならどちらが速い？いきなり MLX にすべき？ —— 一見もっともらしいですが、M4 Mac Mini（16GB / 24GB / 32GB）で実際に回したあとに見えてきたのは別の話でした。

そもそもレイヤーを間違えて聞いていることが多い。

現実は：多くの人は選ぶ必要がない

Mac ローカル LLM で現場に合う結論はシンプルです。

デフォルトは Ollama。MLX が必要な理由を自分で説明できるときだけ例外。

ベンチで Ollama が常に最強だからでも、MLX が弱いからでもありません。詰まる原因の多くはフレームワークではなく、統合メモリが足りるか、モデルが大きすぎないか、IDE とブラウザでメモリを食い切っていないか、です。

30秒結論

👉 デフォルト：Ollama
👉 例外：MLX / llama.cpp

ただし約 80% のユーザーは「例外ゾーン」に入りません。

場面別クイック表

場面	デフォルト	本当の不安
Claude Code / Cursor でローカルモデル	Ollama	MLX の方が速い？
初めて LLM を動かす	Ollama	底層まで勉強すべき？
チーム共有推論	Ollama	もっと複雑な構成が必要？
日常チャット	Ollama / LM Studio	どちらがプロっぽい？
ベンチマーク	MLX	開発にも使える？
LoRA 微調整	MLX	Ollama で学習できる？

結局 Ollama に戻る理由

① まず動かせる

最初の関門は peak tok/s ではなく、5分で動くかです。

brew install ollama
ollama run qwen2.5:7b

Python venv も Metal ビルドも llama.cpp フラグ表も不要。失敗率を下げるのが価値です。

② Agent 時代にフィット

Claude Code、Cursor、Continue などは 安定した HTTP API が欲しい。Ollama は 127.0.0.1:11434 と OpenAI 互換 API を標準搭載。接続手順は Claude Code + Ollama 実測。

③ ボトルネックはフレームワークではない

16GB で 14B + IDE + ブラウザ → swap 増加、Agent タイムアウト。MLX に替えても ほぼ同じ。メモリ目安は M4 Mac Mini で動くモデル、7B/14B は実運用の差。

MLX が重要になるのはいつか

MLX は「より良い Ollama」ではなく、限られた用途の底層ツールです。

1. ベンチマーク

👉 MLX / llama.cpp CLI

2. CI / 研究の再現

👉 MLX の方が制御しやすい

3. LoRA 微調整

Ollama は推論ランタイムであり、学習フレームワークではありません。

4. 自前推論システム

ルーティング・ゲートウェイなら MLX + 自前サービス。個人の Claude Code 接続のためだけに MLX へ移行する必要はありません。

5. 論文レベルの実験

👉 llama.cpp 直叩き。MLX vs llama.cpp。

クリーンな 8B 4-bit ベンチでは差は 3%–12% 程度。Ollama vs MLX 参照。

誤解の修正

MLX の強みは「測定層」にあり、「利用層」には出にくい。

よく見る構成

M4 Mac Mini（16GB）
Ollama + 14B
Chrome 多数タブ
VS Code + Claude Code

swap 8GB+、応答遅延、Agent timeout → 「Ollama が悪い？」ではなく リソース上限。MLX に替えても同様。統合メモリと LLM 推論。

3層で考える

アプリ層：Claude Code / Cursor
ランタイム層：Ollama（HTTP）
計算層：MLX / llama.cpp

日常はランタイム層で過ごす。

現実的なルール

まず Ollama。足りない理由が言語化できたら MLX。

チーム推論ノードは Mac Mini M4 AI サーバークラスタ。

結論

デフォルト Ollama = 約80%の終点
例外 MLX = 研究・ベンチ・底層制御

一言

Mac ローカル LLM はデフォルト Ollama。MLX は底層制御が必要な少数ケース向け。本当のボトルネックはメモリとモデルサイズ。

判断基準

明確な理由がなければ Ollama。

FAQ

Ollama と MLX、どちら？

デフォルト Ollama。MLX はオフラインベンチ、CI、LoRA、自前推論、極限パラメータ実験向け。

MLX の方が速いのでは？

ベンチでは 3%–12% 程度の差もありますが、Agent ではメモリと安定性が先。

遅いから MLX に変える？

まず swap とモデルサイズを確認。16GB で 14B はフレームワーク変更では解決しにくい。

両方インストールできる？

はい。昼は Ollama、夜は MLX ベンチで共存可能。