Anthropic 的 Claude 現在仍無法征服《精靈寶可夢》遊戲 但未來有可能破關

image 252
Credit: Aurich Lawson

Anthropic 公司的最新 AI 模型「Claude 3.7 Sonnet」在嘗試遊玩經典 Game Boy 遊戲《精靈寶可夢》時仍然面臨諸多挑戰,這項實驗近日引發業界關注,同時也揭示了當前 AI 技術的局限與未來發展方向。

根據 Anthropic 員工 David Hershey 的說明,雖然最新的 Claude 3.7 Sonnet 模型較以往版本取得了進步,成功收集了多個道館徽章,但在持續數週的 Twitch 直播中,數千名觀眾見證了 AI 在《精靈寶可夢》遊戲中的掙扎過程。

原文:Why Anthropic’s Claude still hasn’t beaten Pokémon

AI 在遊戲中表現不如人類

儘管 Claude 每次行動前都會進行長時間的「思考」,並顯示推理過程,但它經常會遇到一些明顯的困難。包括無意義地重訪已完成的城鎮、在地圖的死角處受困、或是反覆與同一個無法提供幫助的 NPC 對話等問題。這些表現都明顯不如普通人類玩家。

「看到 Claude 在一款為兒童設計的遊戲中持續掙扎,很難想像我們正在見證某種電腦超級智慧的誕生。」作者 Kyle Orland 指出:「但即使如此,它還是可以為人工智慧產業的邁進提供重要的經驗。」

AI 的「智慧」差異

Hershey 表示,讓 Claude 具備任何玩遊戲能力本身就令人印象深刻。與開發圍棋或 Dota 2 等遊戲的 AI 不同,Claude Plays Pokémon 專案使用的是未經過特殊訓練的通用 Claude 模型。

「這純粹是利用它對世界的理解來指向電子遊戲,」Hershey 說,「如果你去 claude.ai 詢問關於寶可夢的問題,它會基於讀過的資料告訴你寶可夢是什麼… 它知道有八個道館徽章,第一個是小剛… 它了解大致結構。」

Claude 以類似人類的方式觀察和解釋遊戲的視覺輸出,但在理解 Game Boy 低解析度像素化世界方面仍然存在困難。「Claude 在理解螢幕上顯示的內容方面仍然不太擅長,」Hershey 說,「你會看到它經常試圖走入牆壁。」

文字處理勝過圖像理解

相比之下,Claude 在遊戲的文字部分表現更佳。在戰鬥中,它能夠注意到遊戲提示,例如電系寶可夢的攻擊對岩石系對手「效果不佳」,並將這些事實儲存在知識庫中以供後續參考。Claude 甚至能將多個類似的知識整合為相當優雅的戰鬥策略。

「這些模型先建立了文字方面的能力,而文字方面確實更強大。這些模型對圖像的推理能力正在變得更好,但我認為還是落後不少,」Hershey 評論道。

記憶限制與錯誤認知

除了解析文字和圖像的問題外,Claude 還面臨「記憶」已學知識的困難。當前模型的「上下文窗口」限制為 20 萬個令牌,這限制了它在任何時候能儲存在「記憶」中的關聯訊息量。

image 253
Anthropic

比記憶重要資訊的遺失更嚴重的是,Claude 有時會在知識庫中插入錯誤信息。「它相當盲目地信任過去記錄的內容,」Hershey 說,「我曾看到它非常確信在某個特定坐標找到了通往常青森林的出口,然後花費數小時在那個錯誤的小範圍內探索,而不做任何其他事情。它需要很長時間才能決定那是一個『失敗』。」

未來進步空間

image 254
Anthropic / Excelidraw

Hershey 認為,改善 Claude 理解 Game Boy 螢幕截圖的能力是提升其遊戲表現的「低垂果實」。「如果它能完美理解螢幕上的內容,我認為有可能打通遊戲,」他說,「表現會比人類略差一些。」

擴展未來 Claude 模型的上下文窗口也可能使這些模型能夠「在更長時間框架內進行推理,並在長時間內更連貫地處理事情,」他補充道。

儘管 Claude 3.7 Sonnet 在《精靈寶可夢》中的表現可能看起來距離全面通用的人類等級的人工智慧還有一段距離,但 Hershey 仍對新推理模型偶爾展現的覺察能力印象深刻,「能察覺到它不知道自己在做什麼,並知道需要做些不同的事情」。

「對我來說,從『完全做不到』到『有點能做到』之間的差異在 AI 領域是相當大的,」他總結道,「當某個東西能夠有點做到一些事情時,這通常意味著我們離讓它真正做好這件事已經相當接近了。」


吹著魔笛的浮士德
遊戲產業觀察評論家、親子成長的初心者、10 級 Google 地圖嚮導
合作與新聞投稿:[email protected]

追蹤 Instagram:https://lihi3.cc/vlzV5
追蹤 Facebook 專頁:https://www.facebook.com/h9856games