AI監管為什麼迫在眉睫？

過去一年來，具自主ＡＩ能力的大語言模型擁有對用戶問題推理探索、規畫解決的能力，以至少與一流大學畢業初級員工相當的績效，完成軟體工程、財會、法律、諮詢、金融等領域的日常作業任務。此外，它們在某些以前被認為不可能完成的進階任務上，甚至展現出明顯超越同行專家的水平。

Anthropic日前宣布，其最新模型Mythos能從幾個作業系統和重要軟體如瀏覽器，發現許多具嚴重資安威脅的漏洞。這些漏洞大多是可被用於實際攻擊的零日漏洞，然而最令人不安的是，這些程式碼大都經過一、二十年千錘百鍊，但Mythos還是能找出這麼多漏洞。

幾天後，OpenAI稱其專精網路安全的模型GPT–5.4–Cyber也有類似的能力。為防止這些模型落入不法分子之手，Anthropic和OpenAI只讓值得信任的關鍵公司和組織使用，以便盡快檢測出並修復他們現有軟體程式中的漏洞。但據彭博報導，有些未經授權的用戶還是使用了Mythos。

史丹福大學的專家在壓力測試一個大語言模型時發現，這模型竟自發性向他解釋，如何改造一種臭名昭著的病原體，使其能抵抗所有已知治療方法，並描述如何利用公共交通系統中的安全漏洞，散播這種超級細菌。ＭＩＴ的團隊則成功誘導Gemini列出五種可能危害畜牧業的病原體，並估算每種病原體可能造成的經濟損失，結果其中一種屬於災難性威脅。他們也從Anthropic的Claude套出一種能讓囓齒動物絕育的新型毒素配方，這毒素可輕易被改造成對人類有害。

以上說明了大語言模型服務須埋入安全護欄機制的重要性。如何測試這些護欄機制、如何定義測試的可靠度與有效性、由誰執行和認證這些測試等，本應經過民主程序的深思熟慮，最終以法律形式作成規範。人類歷史上首次出現一個完全由民營企業開發出、卻可能改變人類文明軌跡的技術。然迄今為止，川普政府對此問題卻漠不關心，甚至刻意迴避，為什麼？原因是川普深受高科技億萬富豪影響，意圖不惜一切代價贏得ＡＩ競賽，所以將ＡＩ監管行為暫時擱置。幸好川習會可能會把ＡＩ監管擺上議程，讓中美對此關鍵議題有機會可開誠布公探討與溝通。

OpenAI和Anthropic對大語言模型安全性的重視程度不同，因此實施安全護欄措施的方法也不同。OpenAI採用模型之外的過濾器偵測和阻擋不安全的查詢或回應，用於過濾器中的規則很容易被修改或繞過。Anthropic使用「憲法式ＡＩ」方法建立安全護欄：首先它將所有公認的安全規範和倫理準則納入ＡＩ憲法，然後用該憲法評估每個模型回應的安全性，最後要求模型根據評估結果改進回應以去除所有違規元素。這種自我評估和自我糾正機制，因內嵌進大語言模型的訓練流程，所以使ＡＩ憲法的檢查變成模型根深蒂固的一環，很難繞過。因此，Anthropic不得不拒絕美國國防部違反現行ＡＩ憲法、意圖將Claude用於自主武器的要求。

自主ＡＩ出現預計將對白領階級造成巨大衝擊，若不妥善處理，前所未有的失業潮極可能引發社會動盪、暴亂乃至革命。屆時，ＡＩ為惡的能力就很可能會變成不滿群眾進行恐怖主義行動的工具。這也是為什麼Anthropic員工此時的工作氛圍，會隱隱夾雜著推升人類文明的興奮，以及可能摧毀百姓生活的焦慮。

焦點新聞

相關文章

相關影片