AI 推理能力大比拚!《逆轉裁判》成新試煉場,o1 奪冠 Gemini 性價比高

Photo of author

By 吹著魔笛的浮士德

逆轉裁判

傳統的 AI 基準測試往往難以衡量模型在複雜情境下的真實推理能力。近期,一個新穎的評估方法在網路上引發熱議:讓 AI 玩經典法庭辯論遊戲《逆轉裁判》,藉此評估其找出矛盾、提出證據並有效反駁的「實戰」智慧。

image 347

結果顯示,雖然 OpenAI 的最新模型 o1 表現最佳,但 Google 的 Gemini 系列在性價比上展現出強大競爭力。

用《逆轉裁判》測 AI 推理!新基準評估實戰智慧

評估大型語言模型(LLM)的推理能力一直是一大挑戰。近日,日本網友「K.Ishi@生成AIの産業応用」分享了一個由 Hao AI Lab 提出的有趣基準測試方法,引發廣泛關注。

他選擇讓 AI 挑戰經典推理冒險遊戲《逆轉裁判》,測試目的旨在評估 AI 在模擬法庭情境中,「從證詞中找出矛盾點、選擇適當證據來支持論點,並以最具說服力的方式提出反駁(『異議あり!』」的綜合實踐能力。

評估標準與測試模型

此基準測試著重於評估 AI 的以下幾方面能力:

  1. 全局觀: 不僅限於當前證詞,能考量案件整體脈絡進行判斷。
  2. 策略性: 思考提出「異議!」的最佳時機,制定最有效的辯論策略。
  3. 適應性: 隨著庭審中出現的新訊息或證據,能靈活調整策略。

參與測試的主要 AI 模型及其在「正確提出證據次數」的表現(根據圖表數據)如下:

image 346

測試結果:o1 領先,Gemini 2.5 Pro 性價比突出

測試結果顯示,OpenAI 的 o1 模型表現最為出色,以 26 次正確證據提出次數位居榜首。緊隨其後的是 Google 的 gemini-2.5-pro-exp-03-25,獲得 20 次。據 K.Ishi 指出,這兩個模型都能成功推進遊戲進度達到「第四級」(Level 4),顯示出較強的綜合推理與遊戲理解能力。Anthropic 的 claude-3-7–sonnet-thinking 則位居第三。

然而,若考量到成本效益,K.Ishi 認為 Google 的 gemini-2.5-pro 表現極具競爭力,能以僅 o1 約十分之一的成本,達到近乎相當的性能水平,顯示出「Gemini 時代」的潛力。

遊戲作曲者也感到驚訝

這個新穎的測試方法甚至引起了《逆轉裁判》原作系列作曲家杉森雅和本人的注意。他轉發貼文上表示:「沒想到 25 年前拚死做出來的遊戲,現在會被這樣使用,而且還是在海外(笑)。」

杉森先生也對 AI 在遊戲第一章就卡關的現象感到有趣。

他提到,當年與遊戲製作人巧及三上真司在設計第一章難度時煞費苦心,理論上對於人類玩家來說應該算相對簡單才對。

這或許反映了目前 AI 推理模式與人類直覺、常識判斷之間的差異。

他也認為,像《Ghost Trick》(幽靈偵探)等遊戲同樣考驗推理能力,遊戲參與科技演進的可能性很有趣,但他同時相信,在非「作業」層面的思考與指導上,人類仍將保有優勢。

而在杉森的推文中也有網友回應表示,如果未來能推出依據推理而做出不同反擊的 AI 版本或許會很有趣,不知道你怎麼看?


吹著魔笛的浮士德
遊戲產業觀察評論家、親子成長的初心者、10 級 Google 地圖嚮導
合作與新聞投稿:[email protected]

追蹤 Instagram:https://lihi3.cc/vlzV5
追蹤 Facebook 專頁:https://www.facebook.com/h9856games