本週的生成式 AI 產業週報內容可看見全球人工智能領域迎來多項重大技術突破,從音樂創作、3D 內容生成到語音對話系統,各類生成式 AI 技術均展現出革命性進展。
根據最新發布的研究報告,由開發團隊推出的音樂生成模型「NotaGen」成功將大型語言模型(LLM)的學習範式應用於音樂創作領域。該模型通過引入名為「CLaMP-DPO」的創新強化學習法,同時提升了 AI 作曲的音樂性和控制性,使生成的古典音樂作品達到近乎專業人類作曲家的水準。
在 3D 內容生成方面,新型 AI 模型「Phidias」引入了「參照增強擴散」(Reference-Augmented Diffusion)技術,結合「元 ControlNet」、「動態參照路由」以及「自我參照增強」三大核心組件,實現了從文字、圖像和現有 3D 模型等多元輸入條件生成高品質 3D 內容的能力。
語音交流領域同樣取得顯著進展,「Conversational Speech Model」(CSM)通過結合 Transformer 架構的端到端多模態學習與計算量削減方案,創造出能夠理解語境、表達情感與細微語氣的實時低延遲語音對話系統。儘管在主觀評價方面仍有待改進,但其客觀表現已接近人類水準,為未來數位語音助理的「人性化」表現奠定基礎。
編程工具方面,「Cline v3.5」已更新支持最新 AI 模型,包括 Claude 3.7 及 xAI Grok 2 模型,提供更豐富的視覺 MCP 回應功能。同時,影片生成 AI「Wan2.1 GP」針對低 GPU 性能用戶進行了優化,大幅減少記憶體和 VRAM 使用量,使 RTX 4090 環境可生成 10 秒以上的 720p 影片,12GB 以下 VRAM 環境亦能生成 10 秒以上的 480p 影片。
此外,「ComfyUI wrapper nodes for WanVideo」為用戶提供了在 ComfyUI 環境中使用 WanVideo 模型的可能性,特別是針對 Wan2.1 GP 模型,讓創作者可以利用 ComfyUI 的靈活節點工作流進行更複雜的創作。
推理能力方面,「Atom of Thoughts」(AoT)框架通過將問題分解為原子性問題並以馬可夫過程推進推理,顯著提升了 LLM 的推理能力和計算資源效率。該技術可作為插件與現有方法結合使用。
評估技術也有所突破,「Prompt-to-Leaderboard」(P2L)提出針對每個提示詳細評估大型語言模型性能的新方法,解決了傳統評估指標因平均化而無法反映模型性能變化的問題。
值得注意的是,GPT-4.5 Preview 在測試社會推理能力的「Elimination Game Benchmark」中排名第一,展示了其在戰略思考、欺騙和協調性方面的優越表現。
在機器人技術應用方面,優必選(UBTECH)開發的 Walker S1 人形機器人結合「群體智能」(Swarm Intelligence)技術與 BrainNet 框架,在 Zeekr 的 5G 智能工廠中實現了多機器人協作完成分類、處理和精密組裝等複雜任務。
以上為本週的 AI 產業週報(截至 2025/03/05),隨著這些前沿 AI 技術的不斷成熟與融合,跨領域應用預計將成為未來發展主流,未來也會持續關注並為各位帶來更新。
參考連結
—
吹著魔笛的浮士德
遊戲產業觀察評論家、親子成長的初心者、10 級 Google 地圖嚮導
合作與新聞投稿:[email protected]
追蹤 Instagram:https://lihi3.cc/vlzV5
追蹤 Facebook 專頁:https://www.facebook.com/h9856games