談 AI 安全,多數人的直覺是從模型本身下手。

「把模型訓練得更安全」,或是「在 prompt 裡告訴它不要做壞事」。

這兩個方向都沒有錯,但有一個根本的問題:模型有時就是會出錯。

模型會產生錯誤資訊,指令會被繞過,在複雜的使用情境下行為會漂移。靠模型自我管理,就像靠人的自制力來防止意外——不夠穩。

把安全蓋進建築裡

建構 MeMesh Agent OS 讓我想清楚一件事:真正的治理,應該像建築裡的承重牆,而不是事後加裝的保全系統。

承重牆是建築結構的一部分,拆掉建築就垮了。保全系統是外掛的,繞過去就沒用了。

這個想法帶來了三層清楚的分工:

  1. Runtime 層 — 模型本體,負責生成內容。支援多個 AI 供應商(Claude、OpenAI、Gemini)。
  2. Constitution 層 — 行為邊界。每一個 Agent 的動作在執行前都要先過這一關,由它來決定「這件事可以做嗎」。
  3. Governance 層 — 企業控制。設定誰有什麼權限、記錄每一個動作、管理審批流程。

這不只是工程架構,更是在回答「出了事,責任在哪裡」這個問題。

告訴模型 vs. 攔截模型

這是兩種截然不同的安全方式,差別很微妙但很關鍵:

方式一: 在 prompt 裡寫「你是一個負責任的助理,不可以做未授權的事」

方式二: 每次 Agent 要執行動作,先讓一個驗證程式對照規則清單,不符合就直接阻止

方式一靠的是模型會配合。方式二不需要模型配合。

在醫療、金融、法律這類受監管的行業,最重要的問題不是「AI 有沒有遵守規則」,而是「我們事後能不能證明它遵守了規則」。

治理架構能回答這個問題,光靠 prompt 工程做不到。

不同的人,不同的權限

在 AI 原生系統裡,角色存取控制(RBAC,Role-Based Access Control)不是加分項,而是基礎設計。

簡單說:不同身份的人對 AI 有不同的操控權限。管理員可以批准某些動作,一般使用者不行。這和企業現有的帳號權限管理邏輯完全一致,讓資安團隊和稽核人員就算不懂 AI 技術,也能看懂這套規則。

沒有記錄就沒有治理

Agent 的每一個動作——呼叫工具、調用模型、改變狀態——都必須留下結構化的、防竄改的紀錄。不是為了方便除錯,而是一種義務。

能說出「Agent 在某時刻做了某件事,由某個角色授權,依據某個版本的政策」,企業 AI 部署才有辦法站得住腳。

還沒解決的問題

這套架構,最難的地方不在實作,而在於規則怎麼寫

安全政策規則要夠精確才能抓到違規,要夠彈性才不會卡住正常工作,還要讓非工程師也看得懂。這三件事同時做到,目前還沒有標準答案。

這是整個 AI 原生系統設計領域最難解的問題之一。