【AI產業週報】Grok 推出影像編輯功能,Claude 3.7 挑戰寶可夢通關

Photo of author

By 吹著魔笛的浮士德

AI技術與運用

在此整理多項生成式 AI 新技術資訊,從 Grok 的影像編輯功能、Tencent 的 3D 生成模型到 Claude 3.7 Sonnet 的遊戲測試等,展現了 AI 技術在多領域的快速演進。

Grok 推出影像編輯功能

Grok 近日新增了影像編輯功能,不僅可以編輯 AI 生成的圖像,還能為手繪草圖上色,或對既有圖像進行加工。據測試報告顯示,雖然線稿在上色過程中有所變形,色彩也較為淡雅,但透過多次嘗試可能會產生更好的結果。

不過似乎無法理解漫畫挖框需求,會產出十分感人的結果。

多項 3D 生成 AI 工具亮相

Cube 3D 作為一款跨平台的 3D 生成 AI 模型,已在 Windows、Linux 和 Mac 等多種作業系統上可供使用。同時,Tencent 開發的開源 3D 生成模型「Hunyuan3D 2.0」及其多視角生成模型「Hunyuan3D 2.0 MV」已獲 ComfyUI 原生支援,進一步拓展了 3D 內容創作的可能性。

AI 輔助遊戲開發與影片生成

PlayCanvas 推出的 editor-mcp-server 工具利用 Anthropic 的 Claude 自動化遊戲編輯器操作,包括實體創建、修改和刪除,以及組件管理、腳本編輯等功能。

https://github.com/playcanvas/editor-mcp-server

在影片生成方面,Vidu 更新了「多參考一致性」功能,提升了影片生成的穩定性,並允許使用最多 7 張參考圖像,大幅增強了影片創作的靈活性。

語言模型的新應用與測試

AI 框架 BAML 近期使用 Gemma-3 和 gpt-4o-mini 兩種大型語言模型進行了數據集豐富化實驗。研究顯示,Gemma-3 在微調和世界知識任務方面表現尤為出色。

https://thedataquarry.com/blog/using-llms-to-enrich-datasets

另一方面,Anthropic 的最新模型「Claude 3.7 Sonnet」被用於測試遊玩經典遊戲「精靈寶可夢」的能力。研究結果顯示,該模型仍未能完全掌握遊戲,尤其在處理知識基礎中的錯誤訊息方面存在挑戰,這導致了遊戲進程的障礙。

image 241

Google Project Astra 功能開始部署

Google 在 MWC 發表的 Project Astra 相關功能已開始向 Android 版 Gemini Live 推出。部分 Android 用戶現可透過 Gemini Live 分享手機畫面或通過相機即時展示周圍環境,強化了行動裝置的 AI 互動體驗。

image 242

本週的技術進展展示了生成式 AI 在影像處理、3D 建模、遊戲開發和行動應用等多領域的持續創新,為內容創作者和開發者提供了更多可能性。

參考資料

【生成AIニュース+】『Grokのedit image』『Cube 3D』『editor-mcp-server』『ComfyUIでHunyuan3D 2.0』『ViduのReference』『BAMLでのGemma3』『Claude 3.7 Sonnetがポケモンをプレイ』『GoogleのProject Astra』


吹著魔笛的浮士德
遊戲產業觀察評論家、親子成長的初心者、10 級 Google 地圖嚮導
合作與新聞投稿:[email protected]

追蹤 Instagram:https://lihi3.cc/vlzV5
追蹤 Facebook 專頁:https://www.facebook.com/h9856games