在此整理多項生成式 AI 新技術資訊,從 Grok 的影像編輯功能、Tencent 的 3D 生成模型到 Claude 3.7 Sonnet 的遊戲測試等,展現了 AI 技術在多領域的快速演進。
Grok 推出影像編輯功能
Grok 近日新增了影像編輯功能,不僅可以編輯 AI 生成的圖像,還能為手繪草圖上色,或對既有圖像進行加工。據測試報告顯示,雖然線稿在上色過程中有所變形,色彩也較為淡雅,但透過多次嘗試可能會產生更好的結果。
不過似乎無法理解漫畫挖框需求,會產出十分感人的結果。
多項 3D 生成 AI 工具亮相
Cube 3D 作為一款跨平台的 3D 生成 AI 模型,已在 Windows、Linux 和 Mac 等多種作業系統上可供使用。同時,Tencent 開發的開源 3D 生成模型「Hunyuan3D 2.0」及其多視角生成模型「Hunyuan3D 2.0 MV」已獲 ComfyUI 原生支援,進一步拓展了 3D 內容創作的可能性。
AI 輔助遊戲開發與影片生成
PlayCanvas 推出的 editor-mcp-server 工具利用 Anthropic 的 Claude 自動化遊戲編輯器操作,包括實體創建、修改和刪除,以及組件管理、腳本編輯等功能。
https://github.com/playcanvas/editor-mcp-server
在影片生成方面,Vidu 更新了「多參考一致性」功能,提升了影片生成的穩定性,並允許使用最多 7 張參考圖像,大幅增強了影片創作的靈活性。
語言模型的新應用與測試
AI 框架 BAML 近期使用 Gemma-3 和 gpt-4o-mini 兩種大型語言模型進行了數據集豐富化實驗。研究顯示,Gemma-3 在微調和世界知識任務方面表現尤為出色。
https://thedataquarry.com/blog/using-llms-to-enrich-datasets
另一方面,Anthropic 的最新模型「Claude 3.7 Sonnet」被用於測試遊玩經典遊戲「精靈寶可夢」的能力。研究結果顯示,該模型仍未能完全掌握遊戲,尤其在處理知識基礎中的錯誤訊息方面存在挑戰,這導致了遊戲進程的障礙。
Google Project Astra 功能開始部署
Google 在 MWC 發表的 Project Astra 相關功能已開始向 Android 版 Gemini Live 推出。部分 Android 用戶現可透過 Gemini Live 分享手機畫面或通過相機即時展示周圍環境,強化了行動裝置的 AI 互動體驗。
本週的技術進展展示了生成式 AI 在影像處理、3D 建模、遊戲開發和行動應用等多領域的持續創新,為內容創作者和開發者提供了更多可能性。
參考資料
—
吹著魔笛的浮士德
遊戲產業觀察評論家、親子成長的初心者、10 級 Google 地圖嚮導
合作與新聞投稿:[email protected]
追蹤 Instagram:https://lihi3.cc/vlzV5
追蹤 Facebook 專頁:https://www.facebook.com/h9856games