Mac ローカル LLM は Ollama か MLX か

最初に聞く質問が、よくズレている

Mac でローカル LLM を始めると、まず出てくるのはこういう質問です。

「Ollama と MLX、どっちがいい?」

M4 Mac Mini ならどちらが速い? いきなり MLX にすべき? —— 一見もっともらしいですが、M4 Mac Mini(16GB / 24GB / 32GB)で実際に回したあとに見えてきたのは別の話でした。

そもそもレイヤーを間違えて聞いていることが多い。

現実は:多くの人は選ぶ必要がない

Mac ローカル LLM で現場に合う結論はシンプルです。

デフォルトは Ollama。MLX が必要な理由を自分で説明できるときだけ例外。

ベンチで Ollama が常に最強だからでも、MLX が弱いからでもありません。詰まる原因の多くはフレームワークではなく、統合メモリが足りるか、モデルが大きすぎないか、IDE とブラウザでメモリを食い切っていないか、です。

30秒結論

  • 👉 デフォルト:Ollama
  • 👉 例外:MLX / llama.cpp

ただし約 80% のユーザーは「例外ゾーン」に入りません。

場面別クイック表

場面デフォルト本当の不安
Claude Code / Cursor でローカルモデルOllamaMLX の方が速い?
初めて LLM を動かすOllama底層まで勉強すべき?
チーム共有推論Ollamaもっと複雑な構成が必要?
日常チャットOllama / LM Studioどちらがプロっぽい?
ベンチマークMLX開発にも使える?
LoRA 微調整MLXOllama で学習できる?

結局 Ollama に戻る理由

① まず動かせる

最初の関門は peak tok/s ではなく、5分で動くかです。

brew install ollama
ollama run qwen2.5:7b

Python venv も Metal ビルドも llama.cpp フラグ表も不要。失敗率を下げるのが価値です。

② Agent 時代にフィット

Claude Code、Cursor、Continue などは 安定した HTTP API が欲しい。Ollama は 127.0.0.1:11434 と OpenAI 互換 API を標準搭載。接続手順は Claude Code + Ollama 実測

③ ボトルネックはフレームワークではない

16GB で 14B + IDE + ブラウザ → swap 増加、Agent タイムアウト。MLX に替えても ほぼ同じ。メモリ目安は M4 Mac Mini で動くモデル、7B/14B は 実運用の差

MLX が重要になるのはいつか

MLX は「より良い Ollama」ではなく、限られた用途の底層ツールです。

1. ベンチマーク

👉 MLX / llama.cpp CLI

2. CI / 研究の再現

👉 MLX の方が制御しやすい

3. LoRA 微調整

Ollama は推論ランタイムであり、学習フレームワークではありません。

4. 自前推論システム

ルーティング・ゲートウェイなら MLX + 自前サービス。個人の Claude Code 接続のためだけに MLX へ移行する必要はありません。

5. 論文レベルの実験

👉 llama.cpp 直叩きMLX vs llama.cpp

クリーンな 8B 4-bit ベンチでは差は 3%–12% 程度。Ollama vs MLX 参照。

誤解の修正

MLX の強みは「測定層」にあり、「利用層」には出にくい。

よく見る構成

  • M4 Mac Mini(16GB)
  • Ollama + 14B
  • Chrome 多数タブ
  • VS Code + Claude Code

swap 8GB+、応答遅延、Agent timeout → 「Ollama が悪い?」ではなく リソース上限。MLX に替えても同様。統合メモリと LLM 推論

3層で考える

  • アプリ層:Claude Code / Cursor
  • ランタイム層:Ollama(HTTP)
  • 計算層:MLX / llama.cpp

日常はランタイム層で過ごす。

現実的なルール

まず Ollama。足りない理由が言語化できたら MLX。

チーム推論ノードは Mac Mini M4 AI サーバークラスタ

結論

  • デフォルト Ollama = 約80%の終点
  • 例外 MLX = 研究・ベンチ・底層制御

一言

Mac ローカル LLM はデフォルト Ollama。MLX は底層制御が必要な少数ケース向け。本当のボトルネックはメモリとモデルサイズ。

判断基準

明確な理由がなければ Ollama。

FAQ

Ollama と MLX、どちら?

デフォルト Ollama。MLX はオフラインベンチ、CI、LoRA、自前推論、極限パラメータ実験向け。

MLX の方が速いのでは?

ベンチでは 3%–12% 程度の差もありますが、Agent ではメモリと安定性が先。

遅いから MLX に変える?

まず swap とモデルサイズを確認。16GB で 14B はフレームワーク変更では解決しにくい。

両方インストールできる?

はい。昼は Ollama、夜は MLX ベンチで共存可能。