最初に聞く質問が、よくズレている
Mac でローカル LLM を始めると、まず出てくるのはこういう質問です。
「Ollama と MLX、どっちがいい?」
M4 Mac Mini ならどちらが速い? いきなり MLX にすべき? —— 一見もっともらしいですが、M4 Mac Mini(16GB / 24GB / 32GB)で実際に回したあとに見えてきたのは別の話でした。
そもそもレイヤーを間違えて聞いていることが多い。
現実は:多くの人は選ぶ必要がない
Mac ローカル LLM で現場に合う結論はシンプルです。
デフォルトは Ollama。MLX が必要な理由を自分で説明できるときだけ例外。
ベンチで Ollama が常に最強だからでも、MLX が弱いからでもありません。詰まる原因の多くはフレームワークではなく、統合メモリが足りるか、モデルが大きすぎないか、IDE とブラウザでメモリを食い切っていないか、です。
30秒結論
- 👉 デフォルト:Ollama
- 👉 例外:MLX / llama.cpp
ただし約 80% のユーザーは「例外ゾーン」に入りません。
場面別クイック表
| 場面 | デフォルト | 本当の不安 |
|---|---|---|
| Claude Code / Cursor でローカルモデル | Ollama | MLX の方が速い? |
| 初めて LLM を動かす | Ollama | 底層まで勉強すべき? |
| チーム共有推論 | Ollama | もっと複雑な構成が必要? |
| 日常チャット | Ollama / LM Studio | どちらがプロっぽい? |
| ベンチマーク | MLX | 開発にも使える? |
| LoRA 微調整 | MLX | Ollama で学習できる? |
結局 Ollama に戻る理由
① まず動かせる
最初の関門は peak tok/s ではなく、5分で動くかです。
brew install ollama
ollama run qwen2.5:7b
Python venv も Metal ビルドも llama.cpp フラグ表も不要。失敗率を下げるのが価値です。
② Agent 時代にフィット
Claude Code、Cursor、Continue などは 安定した HTTP API が欲しい。Ollama は 127.0.0.1:11434 と OpenAI 互換 API を標準搭載。接続手順は Claude Code + Ollama 実測。
③ ボトルネックはフレームワークではない
16GB で 14B + IDE + ブラウザ → swap 増加、Agent タイムアウト。MLX に替えても ほぼ同じ。メモリ目安は M4 Mac Mini で動くモデル、7B/14B は 実運用の差。
MLX が重要になるのはいつか
MLX は「より良い Ollama」ではなく、限られた用途の底層ツールです。
1. ベンチマーク
👉 MLX / llama.cpp CLI
2. CI / 研究の再現
👉 MLX の方が制御しやすい
3. LoRA 微調整
Ollama は推論ランタイムであり、学習フレームワークではありません。
4. 自前推論システム
ルーティング・ゲートウェイなら MLX + 自前サービス。個人の Claude Code 接続のためだけに MLX へ移行する必要はありません。
5. 論文レベルの実験
👉 llama.cpp 直叩き。MLX vs llama.cpp。
クリーンな 8B 4-bit ベンチでは差は 3%–12% 程度。Ollama vs MLX 参照。
誤解の修正
MLX の強みは「測定層」にあり、「利用層」には出にくい。
よく見る構成
- M4 Mac Mini(16GB)
- Ollama + 14B
- Chrome 多数タブ
- VS Code + Claude Code
swap 8GB+、応答遅延、Agent timeout → 「Ollama が悪い?」ではなく リソース上限。MLX に替えても同様。統合メモリと LLM 推論。
3層で考える
- アプリ層:Claude Code / Cursor
- ランタイム層:Ollama(HTTP)
- 計算層:MLX / llama.cpp
日常はランタイム層で過ごす。
結論
- デフォルト Ollama = 約80%の終点
- 例外 MLX = 研究・ベンチ・底層制御
一言
Mac ローカル LLM はデフォルト Ollama。MLX は底層制御が必要な少数ケース向け。本当のボトルネックはメモリとモデルサイズ。
判断基準
明確な理由がなければ Ollama。
FAQ
Ollama と MLX、どちら?
デフォルト Ollama。MLX はオフラインベンチ、CI、LoRA、自前推論、極限パラメータ実験向け。
MLX の方が速いのでは?
ベンチでは 3%–12% 程度の差もありますが、Agent ではメモリと安定性が先。
遅いから MLX に変える?
まず swap とモデルサイズを確認。16GB で 14B はフレームワーク変更では解決しにくい。
両方インストールできる?
はい。昼は Ollama、夜は MLX ベンチで共存可能。