Cursor 為什麼總「失憶」？再長的上下文也救不了跨週協作

過去兩年，AI 程式設計工具的主戰場很明確：更強的補全、更長的上下文、更敢動多檔案的 Agent、更順的 IDE 整合。Cursor、GitHub Copilot、Windsurf、Claude Code 把「從聊天到改倉庫」變成預設能力。

到了 2026 年中，許多團隊的真實感受卻是：單次對話往往驚艷，跨週協作卻反覆踩坑。你昨天才和 AI 定好的命名慣例，今天新開 Composer 又換一套風格；上週才釐清的 CI 簽章問題，這週 PR 又冒出同一類錯誤。這通常不是模型「變笨」，而是 AI 程式設計正從「無狀態的聰明助手」走向「需要跨工作階段記住約定與決策的協作夥伴」——而這條戰線才剛開打。

廠商簡報愛講 200K、1M token；工程師在終端機前關心的卻是另一件事：下週一還記不記得我們為什麼選 ../qiye-mac-ci-ziyuanchi-git-worktree-duibi-per-job-clone-bingxing-pr-neicun-faq/qiye-mac-ci-ziyuanchi-git-worktree-duibi-per-job-clone-bingxing-pr-neicun-faq.html、keychain 要怎麼隔離？本文拆解「這次看得見」與「下次還記得」的差別，並給一套在標準成形前就能落地的實務。

1. 長上下文 ≠ 跨會話記憶：兩種完全不同的能力

行銷話術裡，超大 context 幾乎是標配。實務上很快會發現：能塞進視窗的內容，不等於下次還會被正確使用。

維度	長上下文視窗	跨工作階段、可治理的記憶
作用範圍	目前這一次對話／任務	跨 Composer、跨分支、理想上跨專案
內容來源	手動 @ 的檔案、自動注入的 open files	歷史決策、偏好、踩坑紀錄、團隊約定
成本結構	每次請求按 token 計費，越長越貴	寫入一次、檢索時再付少量成本
失效方式	關閉工作階段、換模型、超窗截斷	記錯、過期、衝突、錯誤合併
類比	一張很大的白板	有索引的筆記本＋可更新的便條

長上下文解決「這一次能不能看見」；跨會話記憶解決「下一次還記不記得、且記得對不對」。 對程式場景尤其殘酷：中型 monorepo 的索引加上相關 PR 討論，很容易撐滿視窗；就算沒撐滿，把全部歷史聊天塞進 prompt 也不是工程解——雜訊會淹沒訊號，模型會在互相矛盾的舊指令裡搖擺。

我們在企業 Mac CI 與 worktree 選型寫過：許多「為什麼這樣配」不在程式碼裡，而在維運記憶與 Runbook。AI 程式設計把同樣的問題放大到每位開發者每天幾十次的小決策。

反例：若任務只需改兩三個檔案、規範已全部寫進 lint 與 CI，再堆 token 的收益會迅速遞減；此時應優先把「該記住的」寫進可執行的檢查，而不是繼續拉長視窗。

另一個實務陷阱是「上下文膨脹成預設」：團隊習慣把整個 docs/、所有 ADR、甚至上週的 Slack 匯出都 @ 進去，卻沒有排序與淘汰策略。模型會禮貌地「參考」一切，但真正驅動 patch 的往往仍是最後幾條指令與當前 diff。沒有跨會話記憶層時，你只是在用更貴的方式重播同一場會議；有記憶層時，ADR 應以「是否仍有效」的 metadata 進索引，而不是每次全量塞窗。

對 Mac 開發者還有一層：Xcode 專案、簽章描述檔、模擬器狀態與 Swift 套件解析結果，常常比純文字 repo 更「肥」。長上下文能讓 Agent 讀更多檔案，卻不能取代「這台 runner 的 keychain 已預載哪個 profile」這類必須在基礎設施層記住的事實——那正是我們在企業 CI 文章裡反覆強調的隔離與池化邏輯。

2. 為什麼程式設計是「記憶飢渴」場景

寫郵件、做摘要，失憶的代價多半是重講一遍背景。寫軟體，失憶的代價是可量化的工程事故：

架構決策有半衰期：「為什麼用 worktree 而不是 per-job clone」「為什麼 keychain 必須按 runner 隔離」——理由很少寫進 README，卻活在某次對話或某條 review 裡。
約定是隱式的：錯誤處理風格、測試目錄結構、commit 格式、哪些模組禁止 AI 自動修改——分散在 .cursor/rules、AGENTS.md 與口耳相傳裡。
除錯是情節性的：「上次 TestFlight 失敗是因為 ASC API key 權限」最適合當情節記憶，而不是每次讓 AI 重讀兩百行 log。
協作邊界是動態的：個人偏好、專案約束、組織合規若混在同一記憶池，要嘛外洩，要嘛互相污染。
工具鏈會換：本週用 Composer，下週換 Agent 模式或遠端閘道——若記憶綁在單一廠商 UI，遷移成本會被低估。

這和 codesign 與 keychain 隔離 FAQ 裡的教訓同構：平台工程關心的是可重現、可審計，不是「某次對話裡講過」。當 AI 開始改倉庫，「講過」必須變成「寫進倉庫或檢查腳本」。

產品經理常問：「能不能讓 AI 讀完整個 Confluence？」工程上更該問：「哪些決策會在 90 天後仍影響編譯與上架？」前者餵飽上下文，後者才該進 L4/L5。把時間半衰期寫進記憶策略——例如「依賴升級政策」每季 review，「某次 hotfix 的暫時繞過」30 天 TTL——比單純拉長 token 上限更能減少跨週翻車。

3. 記憶的五層：從產品到基礎設施

今天的 AI 程式工具，其實已在用各種「假記憶」拼湊體驗，只是還沒統一成使用者可理解、可治理的模型。可粗分五層：

L5 組織記憶：團隊規範、合規策略、共享 Runbook、事故復盤
L4 專案記憶：架構 ADR、模組邊界、CI 踩坑、依賴升級策略
L3 個人記憶：編碼風格、常用指令、你討厭的 AI 行為
L2 工作階段記憶：目前任務目標、已改檔案、中間結論（易失）
L1 即時上下文：開啟的檔案、游標位置、git diff（毫秒級）

多數產品強項在 L1–L2；真正的戰場在 L3–L5。下一波差異，會體現在這些層是五個割裂的設定頁，還是一條可查詢、可版本化、可回滾的記憶流水線。

這與 OpenHuman 等強調長期個人 Agent 記憶的方向一致：競爭焦點從「誰的基座模型更大」轉向「誰更能穩定理解使用者與專案」——只是 AI 程式設計把戰場鎖在倉庫與流水線上。

對 Mac 團隊而言，L4–L5 常和實體機器綁在一起：簽章憑證在哪台 runner、embedding 索引放在哪台 Mini——這些都不是「多開一個聊天分頁」能解決的。

治理上建議把五層畫成資料流而非堆疊：L1 只讀、L2 任務結束即丟、L3 可匯出但預設私有、L4 必須 PR、L5 由平台組寫入且帶審批。當 Cursor 之類的工具推出「Memory」開關時，先問它寫入哪一層、誰能刪、是否進 audit log——否則只是把 L2 的易失猜測變成 L4 的長期污染。

4. 技術路線：記憶不是「多存聊天紀錄」

4.1 檢索增強（RAG）

把歷史對話、ADR、PR review 切片做 embedding，按任務檢索。優點是可擴展、可標註片段來源；缺點是檢索錯一條，比沒有更危險——需要好的 metadata（倉庫、分支、時間、是否已廢棄）。

4.2 結構化記憶庫

例如記錄「codesign／match 密碼在 1Password vault X／置信度 0.9」。適合工程事實，便於人工訂正；與自由文字決策紀錄需要不同的合併邏輯。

4.3 工作階段壓縮（Compaction）

長任務結束時產生結構化摘要，下次注入。實作快，但摘要會丟細節；錯誤摘要會被永久強化，屬於 compounding error，需要人工抽檢。

4.4 倉庫即記憶

把該記住的寫進 AGENTS.md、註解、lint 規則、可執行的 doctor 腳本；AI 只負責提 patch。這是最便宜、最可 review 的 L4 記憶，與 Mac CI 文章倡導的「可重現步驟寫進倉庫」同構。

4.5 本地優先 vs 雲端記憶

本地索引（例如在 Apple Silicon 上跑 embedding）滿足隱私；雲端記憶支援跨裝置與團隊共享。2026 年的張力是：個人想要「AI 懂我」，企業想要「AI 不懂不該懂的」——同一家公司裡兩個需求往往同時存在。

對 Mac 開發者，這和統一記憶體上的本地推理、Mac Mini M4 私有 AI 叢集是同一盤棋：記憶索引與程式索引可以共用一台常駐節點，而不必把一切塞進 SaaS。

4.6 評估：怎麼知道記憶層有效？

可用三個指標：重複解釋率（同一 issue 類型要講幾次背景）、回歸率（已修過的 CI/簽章問題是否再現）、糾錯延遲（發現記憶錯誤到清除要多久）。若只追「單次任務成功率」，會高估長上下文、低估跨週成本——這在管理報表裡很常見，卻與工程體感背離。

5. 戰場地圖：接下來會打的三場仗

仗 1：個人記憶 vs 團隊記憶。 沒有優先順序規則時，Agent 會在衝突規範間隨機選邊。贏家特徵：顯式作用域（user／project／org）＋可見的「規則來源鏈」。

仗 2：記憶的可信度。 自動記憶省時，也最容易把一次幻覺變成長期偏見。贏家特徵：寫入需確認或 PR、支援否定記憶與 TTL、提供 doctor memory 類診斷。

仗 3：記憶與安全的邊界。 外洩倉庫已讓人警覺；外洩「某客戶下週上線」「某漏洞尚未修復」可能來自記憶庫跨專案檢索。贏家特徵：租戶隔離、敏感實體過濾、記憶匯出審計。

三場仗疊加，會把 AI 程式設計從「個人效率工具」變成需要平台工程治理的基礎設施——就像企業 Mac CI 從「能跑就行」走到池化、隔離與合規（可參考 codesign 與 keychain 隔離）。

若你已用遠端 Mac 跑 Agent，記憶外洩的 blast radius 還包含閘道設定與掛載路徑——這和一般 SaaS 聊天不同，必須當基礎設施威脅建模。

6. 開發者的現實策略：標準成形之前，先建好記憶棧

產品還在混戰，個人與團隊仍可立刻做這些事，減少對黑盒「Memory」開關的依賴：

在倉庫根目錄維護 AGENTS.md 或 .cursor/rules：模組邊界、禁止路徑、必須跑的檢查指令。
把「踩過的坑」寫成可執行檢查（make doctor、CI step），不要只留在聊天裡。
區分「事實」與「偏好」：事實進文件；偏好放 user rules。
大任務結束前輸出固定格式交接摘要：目標／已做／未做／約束／勿動——貼到 issue 或 PR。
規則檔超過幾百行後定期刪減，和刪 dead code 一樣重要。
金鑰、客戶名、未公開漏洞永不進雲端記憶，只走密鑰管理與 issue 權限。
遠端 Agent 的目錄掛載、閘道版本與本機 AGENTS.md 放在同一套 Git 倉庫，換機才不會「連記憶一起丟」。

實操提示：若你已在用 OpenClaw 閘道＋遠端 Mac 編排 Agent，把「記憶外化」與閘道設定、目錄掛載寫在同一套 Git 倉庫；藍綠或回滾時，上下文才不會跟著單一機器消失。

7. 結語：下一程不是「更會說」，而是「更記得住、且記得對」

跨工作階段、可糾錯的記憶，不是錦上添花，而是 AI 程式設計從 demo 級效率 走向 生產級協作 的門檻。長上下文把天花板抬高一截，但沒有解決「狀態隨時間累積」的本質問題。

基座模型正在商品化；IDE 整合也在趨同。難複製的是：你在某倉庫沉澱了可訂正的記憶、團隊把合規邊界寫進組織策略、CI 與本地推理跑在同一套可信基礎設施上。

短期最務實的姿勢是：別把所有賭注壓在某個「Memory」開關上——用文件、規則、腳本與可審計的倉庫習慣，給自己一條不依賴單一廠商的退路。當工具終於把 L3–L5 做穩的那天，你會發現 AI 程式設計少了很多「再解釋一遍」，多了很多「接著上週那件事往下做」。那天的體驗差距，不會來自模型智商的 5%，而會來自記憶層是否值得信任。

若你正在規劃常駐 Mac 節點給 Agent 與本地索引，可把本文當 checklist：先讓倉庫與流水線會記事，再讓模型在更大的視窗裡「看見」——順序反過來，跨週協作會一直像在教一位每天都換人的新同事。

最後補一個常被忽略的細節：記憶也需要版本控管。 當你把 L4 寫進 AGENTS.md，它就該跟程式碼一樣走 PR、diff、rollback。否則你只是在聊天裡少解釋幾次，卻在倉庫裡多了一條沒人 review 的「超長註解」，同樣會腐化。Macstripe 在企業 Mac CI 場景裡反覆驗證過：可審計的習慣比更大的模型參數更能降低跨週摩擦——AI 程式設計的記憶層，終究會收斂到同一套工程紀律。