Cursorはなぜ「忘れる」のか？長いコンテキストでは跨週の協業は救えない

ここ2年、AIコーディングツールの競争軸ははっきりしています。補完精度、長いコンテキスト、複数ファイルを一気に触るAgent、IDEとの一体感。Cursor、GitHub Copilot、Windsurf、Claude Code などが「チャットからリポジトリ変更へ」を当たり前にしました。

2026年半ばの現場感覚はこうです：単発セッションは驚くほどうまくいくのに、週をまたぐと同じ地雷を踏む。 昨日決めた命名規約が、今日の新しいComposerセッションでは別スタイルに戻る。先週潰したCI署名の不具合が、今週のPRでまた顔を出す。モデルが劣化したのではなく、AIコーディングが「都度リセットされる賢い助手」から「時間軸のある協業相手」へ移行し始めている——その戦線はまだ序盤です。

1. 長いコンテキスト ≠ 記憶：別物の能力を混同している

「200K / 1M context」はもはや宣伝文句の定番です。現場のエンジニアはすぐ気づきます。窓に載せられることと、次回も正しく使われることは一致しません。

観点	長いコンテキスト窓	持続する記憶
効く範囲	今回の会話 / タスク	セッションをまたぐ・ブランチをまたぐ（理想はプロジェクト横断）
中身の出どころ	手動で @ したファイル、open files の自動注入	過去の判断、好み、インシデント、チーム合意
コスト	リクエストごとにトークン課金、長いほど高い	一度書き込み、検索時に少量
切れる条件	セッション終了、モデル変更、窓オーバーで切り捨て	誤記、期限切れ、衝突、誤マージ
たとえ	巨大なホワイトボード	索引付きノート + 更新可能な付箋

長いコンテキストは「今回見えるか」、持続する記憶は「次も覚えているか」。 中規模monorepoの索引と関連PR議論だけで窓を圧迫することも珍しくありません。窓に余裕があっても、全チャット履歴をpromptに詰め込むのは設計として破綻します——ノイズが信号を埋め、矛盾した旧指示の間でモデルが揺れます。

反例： 変更が2〜3ファイルで、規約がlintとCIに全部載っているなら、超長コンテキストの限界効用はすぐ頭打ちです。トークンを積むより、実行可能なチェックに状態を書き込む方が先です。

2. プログラミングは「記憶に飢えた」仕事

メールや要約なら、忘れたコストは背景説明の繰り返しです。ソフトウェアでは測れる事故になります。

設計判断には半減期がある： 「worktreeにした理由」「runnerごとにkeychainを分離する理由」——READMEには載らず、会話かreviewにだけ残る。
規約は暗黙知： エラー処理、テスト配置、commit形式、AIに触らせないディレクトリ——.cursor/rules、AGENTS.md、口伝に分散。
デバッグはエピソード： 「前回TestFlightが落ちたのはASC API key権限」——200行ログの再読より、エピソードとして持つ方が合理的。
境界は流動的： 個人の好み、プロジェクト制約、コンプラが同じプールに混ざると漏洩か汚染のどちらか。

企業Mac CIプールとworktree選定でも書いたように、「なぜこう配線したか」はコードよりRunbookと運用記憶にあります。AIコーディングは、その問題を開発者1人あたり1日数十回の小さな判断に拡大します。

3. 記憶の五層：プロダクトからインフラまで

今日のツールはすでに「擬似記憶」を組み合わせて体験を作っています。ユーザーが理解・統治できる1本のモデルにはまだなっていません。ざっくり五層に分けられます。

L5 組織： チーム規約、コンプラ、共有Runbook、ポストモーテム
L4 プロジェクト： ADR、モジュール境界、CIの踏み台、依存更新方針
L3 個人： コーディング嗜好、定番コマンド、AIにしてほしくないこと
L2 セッション： 今のゴール、触ったファイル、中間結論（揮発しやすい）
L1 即時： 開いているファイル、カーソル、git diff（ミリ秒単位）

多くの製品はL1–L2が強く、本丸はL3–L5。次の差別化は、五つの設定画面に散らばるか、検索・版管理・ロールバック可能な1本のパイプラインになるかです。

OpenHumanのような長期記憶付き個人Agentが示す方向と同型です。争点は「基盤モデルのサイズ」から「ユーザーとリポジトリを安定して理解できるか」へ——AIコーディングでは戦場がリポジトリとパイプラインに固定されます。

4. 技術路線：記憶は「チャットを溜める」だけではない

4.1 検索拡張（RAG）

過去会話、ADR、PR reviewをchunk化してembeddingし、タスクごとに検索。利点は拡張性と出典の監査。欠点は誤検索——1本外れると「無いより危ない」。repo、branch、時刻、廃止フラグなどmetadataが要ります。

4.2 構造化メモリ

例：「codesign / matchの秘密は1Password vault X / 信頼度0.9」。事実向きで人手修正しやすい。自由文の決定ログとはマージロジックを分けるべきです。

4.3 セッション圧縮（Compaction）

長タスク終了時に構造化サマリを生成し次回注入。実装は速いが細部が落ち、誤った要約は永久に強化される——compounding error。サンプリング監査が必要です。

4.4 リポジトリ即記憶

覚えるべきことは AGENTS.md、コメント、lint、実行可能な doctor スクリプトへ。AIはpatch提案に徹する。最安でreviewしやすいL4——Mac CI記事で言う「再現手順をrepoに書く」と同型です。

4.5 ローカル優先 vs クラウド記憶

Apple Silicon上のローカル索引はプライバシーに効きます。クラウド記憶は端末横断とチーム共有向き。2026年の緊張は「AIに自分を理解してほしい個人」と「知ってほしくないものを守りたい企業」が同じ会社に共存することです。

Mac開発者にとっては統合メモリ上のローカル推論やMac Mini M4プライベートAIクラスタと同じ盤面です。記憶索引とコード索引はSaaSに全部載せず、常駐ノード1台で共有可能です。

5. これからの三つの争点

争点1：個人 vs チーム。 優先順位が無いとAgentは衝突する規約の間でランダムに寄ります。勝ち筋は明示スコープ（user / project / org）と「どのルール由来か」の可視化。

争点2：信頼度。 自動記憶は時間を節約する反面、一度の幻覚が長期バイアスになります。勝ち筋は書き込み確認やPR、否定記憶、TTL、doctor memory系診断。

争点3：セキュリティ境界。 リポジトリ漏洩に加え、「来週ローンチの顧客」「未修正CVE」がプロジェクト横断検索から漏れるリスク。勝ち筋はテナント分離、エンティティフィルタ、監査可能なエクスポート。

三つが重なると、AIコーディングは個人効率ツールからプラットフォームエンジニアリングが要る基盤へ——企業Mac CIが「動けばよい」からプール化・隔離・コンプラへ進んだのと同型です（codesignとkeychain隔離FAQ参照）。

6. 現場の現実策：標準が固まる前に記憶スタックを作る

製品はまだ混戦ですが、個人とチームは今すぐ黒箱の「Memory」スイッチ依存を減らせます。

リポジトリ直下に AGENTS.md または .cursor/rules：モジュール境界、禁止パス、必須チェックコマンド。
踏み台は make doctor やCI step に落とす。チャットだけに残さない。
「事実」と「好み」を分離：事実はドキュメント、好みはuser rules。
大タスク終了時に固定フォーマットの引き継ぎ：目的 / 完了 / 未了 / 制約 / 触るな——issueやPRへ。
ルールファイルも数百行超えたらdead codeと同様に刈り込む。
鍵・顧客名・未公開CVEはクラウド記憶に入れず、秘密管理とissue権限だけに。

実務： OpenClawゲートウェイ + リモートMacでAgentを回しているなら、「記憶の外部化」をゲートウェイ設定・マウントと同じGit repoに書く。換機・ロールバックで文脈を失わない。

7. おわりに：次は「うまく話す」より「覚えて、覚え間違えない」

持続する記憶は装飾ではなく、AIコーディングが デモ級の速さ から 本番級の協業 に入る門です。長いコンテキストは天井を上げましたが、「時間とともに状態が積み上がる」問題は解きません。

基盤モデルは商品化し、IDE統合も収束します。複製しにくいのは、リポジトリ上で訂正可能な記憶の蓄積、組織ポリシーに書かれた境界、CIとローカル推論が同じ信頼できるインフラ上にあることです。

短期で現実的なのは、特定ベンダーの「Memory」スイッチだけに賭けないこと——ドキュメント、ルール、スクリプト、監査可能なrepo習慣で、単一製品からの退路を確保する。L3–L5が安定した日、体験差はモデルIQの5%ではなく、記憶層を信頼できるかから来ます。