【AI產業週報】NotaGen使生成的古典音樂接近人類作曲的水準

本週的生成式 AI 產業週報內容可看見全球人工智能領域迎來多項重大技術突破，從音樂創作、3D 內容生成到語音對話系統，各類生成式 AI 技術均展現出革命性進展。

根據最新發布的研究報告，由開發團隊推出的音樂生成模型「NotaGen」成功將大型語言模型（LLM）的學習範式應用於音樂創作領域。該模型通過引入名為「CLaMP-DPO」的創新強化學習法，同時提升了 AI 作曲的音樂性和控制性，使生成的古典音樂作品達到近乎專業人類作曲家的水準。

oh btw

ai can now generate high-quality classical sheet music and it sounds absolutely insanely good pic.twitter.com/rTNlHwDgB2
— Dreaming Tulpa 🥓👑 (@dreamingtulpa) March 2, 2025

在 3D 內容生成方面，新型 AI 模型「Phidias」引入了「參照增強擴散」（Reference-Augmented Diffusion）技術，結合「元 ControlNet」、「動態參照路由」以及「自我參照增強」三大核心組件，實現了從文字、圖像和現有 3D 模型等多元輸入條件生成高品質 3D 內容的能力。

語音交流領域同樣取得顯著進展，「Conversational Speech Model」（CSM）通過結合 Transformer 架構的端到端多模態學習與計算量削減方案，創造出能夠理解語境、表達情感與細微語氣的實時低延遲語音對話系統。儘管在主觀評價方面仍有待改進，但其客觀表現已接近人類水準，為未來數位語音助理的「人性化」表現奠定基礎。

編程工具方面，「Cline v3.5」已更新支持最新 AI 模型，包括 Claude 3.7 及 xAI Grok 2 模型，提供更豐富的視覺 MCP 回應功能。同時，影片生成 AI「Wan2.1 GP」針對低 GPU 性能用戶進行了優化，大幅減少記憶體和 VRAM 使用量，使 RTX 4090 環境可生成 10 秒以上的 720p 影片，12GB 以下 VRAM 環境亦能生成 10 秒以上的 480p 影片。

🚀 Cline v3.5 is now available, packed with new features and quality-of-life improvements.

This release includes dynamic Thinking Budgets for 3.7 Extended Thinking, rich visual MCP responses, xAI Grok 2 models, and more.

Get ready for a Cline that is smarter and more capable.… pic.twitter.com/yRqK9eMW3I
— Cline (@cline) March 1, 2025

此外，「ComfyUI wrapper nodes for WanVideo」為用戶提供了在 ComfyUI 環境中使用 WanVideo 模型的可能性，特別是針對 Wan2.1 GP 模型，讓創作者可以利用 ComfyUI 的靈活節點工作流進行更複雜的創作。

Wan2.1 GP: generate a 8s WAN 480P video (14B model non quantized) with only 12 GB of VRAM.https://t.co/DDJsGQrl0l

By popular demand, I have performed on Wan 2.1 the same optimizations I did on HunyuanVideoGP v5 and reduced the VRAM consumption of Wan2.1 by a factor of 2.…
— deepbeepmeep (@deepbeepmeep) March 2, 2025

推理能力方面，「Atom of Thoughts」（AoT）框架通過將問題分解為原子性問題並以馬可夫過程推進推理，顯著提升了 LLM 的推理能力和計算資源效率。該技術可作為插件與現有方法結合使用。

評估技術也有所突破，「Prompt-to-Leaderboard」（P2L）提出針對每個提示詳細評估大型語言模型性能的新方法，解決了傳統評估指標因平均化而無法反映模型性能變化的問題。

值得注意的是，GPT-4.5 Preview 在測試社會推理能力的「Elimination Game Benchmark」中排名第一，展示了其在戰略思考、欺騙和協調性方面的優越表現。

在機器人技術應用方面，優必選（UBTECH）開發的 Walker S1 人形機器人結合「群體智能」（Swarm Intelligence）技術與 BrainNet 框架，在 Zeekr 的 5G 智能工廠中實現了多機器人協作完成分類、處理和精密組裝等複雜任務。

UBTECH's Swarm Intelligence, powered by the 'BrainNet' framework, enables Walker S1 humanoid robots to collaborate across multiple tasks and scenarios.

At Zeekr's car factory, these robots showcase their ability to handle collaborative tasks. pic.twitter.com/IE3XIyDTGd
— The Humanoid Hub (@TheHumanoidHub) March 3, 2025

以上為本週的 AI 產業週報（截至 2025/03/05），隨著這些前沿 AI 技術的不斷成熟與融合，跨領域應用預計將成為未來發展主流，未來也會持續關注並為各位帶來更新。

參考連結

【生成AIニュース+】『NotaGen』『Phidias』『Cline v3.5』『Wan2.1 GP』『ComfyUI wrapper nodes for WanVideo』『Atom of Thoughts (AoT)』『Conversational Speech Model(CSM)』『Prompt-to-Leaderboard (P2L)』『GPT-4.5 Previewの社会的推論ベンチマーク』『Walker S1 Swarm Intelligence』

合作廣告

吹著魔笛的浮士德

讓最新的AI模型挑戰《超級瑪利歐兄弟》 Claude 3.7 Sonnet表現最佳

皮克敏特殊裝飾版本限時回歸！在逆轉情人節持續點燃愛的火花