遊戲產業觀察

AI 推理能力大比拚！《逆轉裁判》成新試煉場，o1 奪冠 Gemini 性價比高

By 吹著魔笛的浮士德

2025 年 4 月 21 日

2026 年 2 月 22 日

傳統的 AI 基準測試往往難以衡量模型在複雜情境下的真實推理能力。近期，一個新穎的評估方法在網路上引發熱議：讓 AI 玩經典法庭辯論遊戲《逆轉裁判》，藉此評估其找出矛盾、提出證據並有效反駁的「實戰」智慧。

結果顯示，雖然 OpenAI 的最新模型 o1 表現最佳，但 Google 的 Gemini 系列在性價比上展現出強大競爭力。

用《逆轉裁判》測 AI 推理！新基準評估實戰智慧

合作廣告

評估大型語言模型（LLM）的推理能力一直是一大挑戰。近日，日本網友「K.Ishi@生成AIの産業応用」分享了一個由 Hao AI Lab 提出的有趣基準測試方法，引發廣泛關注。

AIの真の推論能力を測るには「逆転裁判」をプレイさせればいいという素晴らしい発想。

この指標は、逆転裁判を使いてAIの「証言から矛盾点を見つけ、それを裏付ける適切な証拠を選び、最も効果的に反論する」実践能力を評価。

その結果、最もの優れた弁護士はo1だった↓pic.twitter.com/L8hdWVPZRP
— K.Ishi@生成AIの産業応用 (@K_Ishi_AI) April 16, 2025

他選擇讓 AI 挑戰經典推理冒險遊戲《逆轉裁判》，測試目的旨在評估 AI 在模擬法庭情境中，「從證詞中找出矛盾點、選擇適當證據來支持論點，並以最具說服力的方式提出反駁（『異議あり！』」的綜合實踐能力。

評估標準與測試模型

此基準測試著重於評估 AI 的以下幾方面能力：

全局觀： 不僅限於當前證詞，能考量案件整體脈絡進行判斷。
策略性： 思考提出「異議！」的最佳時機，制定最有效的辯論策略。
適應性： 隨著庭審中出現的新訊息或證據，能靈活調整策略。

參與測試的主要 AI 模型及其在「正確提出證據次數」的表現（根據圖表數據）如下：

測試結果：o1 領先，Gemini 2.5 Pro 性價比突出

測試結果顯示，OpenAI 的 o1 模型表現最為出色，以 26 次正確證據提出次數位居榜首。緊隨其後的是 Google 的 gemini-2.5-pro-exp-03-25，獲得 20 次。據 K.Ishi 指出，這兩個模型都能成功推進遊戲進度達到「第四級」（Level 4），顯示出較強的綜合推理與遊戲理解能力。Anthropic 的 claude-3-7–sonnet-thinking 則位居第三。

然而，若考量到成本效益，K.Ishi 認為 Google 的 gemini-2.5-pro 表現極具競爭力，能以僅 o1 約十分之一的成本，達到近乎相當的性能水平，顯示出「Gemini 時代」的潛力。

遊戲作曲者也感到驚訝

這個新穎的測試方法甚至引起了《逆轉裁判》原作系列作曲家杉森雅和本人的注意。他轉發貼文上表示：「沒想到 25 年前拚死做出來的遊戲，現在會被這樣使用，而且還是在海外（笑）。」

何と言うか、
25年前に死ぬ思いしながら作ったゲームがこういう使い方されるようになるとは思わなかったよｗ
しかも海外でｗ

にしても1章でAIが詰まるの面白い。
特に1章の難易度はめっちゃ巧さんと三上さんが拘られた部分。
人間には簡単なはずなんよｗ
その推論力ってやつが人間の強みなのか。 https://t.co/vm8MxiVi22
— 杉森雅和 (Masakazu Sugimori) (@m_sugimori) April 19, 2025

杉森先生也對 AI 在遊戲第一章就卡關的現象感到有趣。

他提到，當年與遊戲製作人巧及三上真司在設計第一章難度時煞費苦心，理論上對於人類玩家來說應該算相對簡單才對。

這或許反映了目前 AI 推理模式與人類直覺、常識判斷之間的差異。

他也認為，像《Ghost Trick》（幽靈偵探）等遊戲同樣考驗推理能力，遊戲參與科技演進的可能性很有趣，但他同時相信，在非「作業」層面的思考與指導上，人類仍將保有優勢。

而在杉森的推文中也有網友回應表示，如果未來能推出依據推理而做出不同反擊的 AI 版本或許會很有趣，不知道你怎麼看？

合作廣告

吹著魔笛的浮士德

出生在港都的南部囡仔，十歲前後在堂哥家裡看見《三國志 III》的遊戲畫面以後，感覺看見了一道通往全新人生的大門，回家拜託父親組一台 486 電腦給自己，從此與電玩結下不解之緣。

合作與新聞投稿：[email protected]

追蹤社群平台：
Instagram | Facebook 專頁 | Threads | Twitter

祖堅正慶氏與石川夏專訪：聊聊STORMBLOOD: FINAL FANTASY XIV Original Soundtrack

金亨泰與黃在浩大談《潛水員戴夫》與《春日一番的假期》聯動：《人龍》是獨一無二的特別作品

本站評測與報導可能包含聯盟行銷連結，這將幫助我們維持營運。