蘋果新AI論文：微調Qwen3-Coder，生成UI能力逆襲GPT-5_上海偉傑國際貨物運輸代理有限公司

IT之家 2 月 6 日訊息，科技媒體 9to5Mac 今天（2 月 6 日）釋出博文，報道稱蘋果公示最新 AI 研究論文，利用生成式 AI 最佳化 App 介面（UI）開發，經過特定方法微調的 Qwen3-Coder 模型，在 UI 生成能力上擊敗了 GPT-5論文。

IT之家援引博文介紹，該論文由蘋果 UICoder 團隊發表，主要是探索生成式 AI 如何更高效地融入 App 開發流程論文。

論文指出目前主流的“人類反饋強化學習”（RLHF）並不適合 UI 設計領域論文。傳統的 RLHF 通常要求人類對 AI 生成的結果進行簡單的“點贊 / 點踩”或排序。

然而，這種二元評價體系忽略了設計背後的複雜邏輯，也無法體現設計師的工作流論文。簡單來說，AI 只知道“這個不好”，卻不知道“哪裡不好”或“怎麼改才好”。

蘋果為了解決上述問題，招募了 21 位擁有 2 至 30 年經驗的專業設計師參與實驗論文。不同於以往的打分模式，設計師需要直接透過撰寫評論、繪製草圖甚至直接修改程式碼來最佳化 AI 生成的介面。

團隊收集了 1460 條此類深度註釋，並將“修改前”與“修改後”的對比資料輸入到一個獎勵模型中論文。該模型透過學習截圖和自然語言描述，學會了像人類設計師一樣判斷 UI 的美觀度與功能性。

實驗資料顯示，基於“草圖反饋”訓練的模型表現最為優異論文。令人驚訝的是，僅依靠 181 個草圖註釋進行微調，該模型就實現了對 GPT-5 的超越。研究團隊表示，這證明了“少而精”的專家級反饋能讓小引數模型在特定領域展現出超越大模型的潛力。

研究還揭示了一個關鍵現象：設計審美具有高度主觀性論文。在單純的排序任務中，研究人員與設計師的觀點一致率僅為 49.2%，幾乎等同於拋硬幣。

然而，當設計師透過草圖或直接編輯來表達意圖後，雙方的一致率分別飆升至 63.6% 和 76.1%論文。這表明，在定義“什麼是更好的設計”時，具體的視覺修改（Show）遠比抽象的評分（Tell）更具共識價值，這也是未來 AI 輔助設計工具進化的核心方向。

參考

蘋果新AI論文：微調Qwen3-Coder，生成UI能力逆襲GPT-5