蘋果新AI論文:微調Qwen3-Coder,生成UI能力逆襲GPT-5

IT之家 2 月 6 日訊息,科技媒體 9to5Mac 今天(2 月 6 日)釋出博文,報道稱蘋果公示最新 AI 研究論文,利用生成式 AI 最佳化 App 介面(UI)開發,經過特定方法微調的 Qwen3-Coder 模型,在 UI 生成能力上擊敗了 GPT-5論文

IT之家援引博文介紹,該論文由蘋果 UICoder 團隊發表,主要是探索生成式 AI 如何更高效地融入 App 開發流程論文

論文指出目前主流的“人類反饋強化學習”(RLHF)並不適合 UI 設計領域論文。傳統的 RLHF 通常要求人類對 AI 生成的結果進行簡單的“點贊 / 點踩”或排序。

然而,這種二元評價體系忽略了設計背後的複雜邏輯,也無法體現設計師的工作流論文。簡單來說,AI 只知道“這個不好”,卻不知道“哪裡不好”或“怎麼改才好”。

蘋果為了解決上述問題,招募了 21 位擁有 2 至 30 年經驗的專業設計師參與實驗論文。不同於以往的打分模式,設計師需要直接透過撰寫評論、繪製草圖甚至直接修改程式碼來最佳化 AI 生成的介面。

蘋果新AI論文:微調Qwen3-Coder,生成UI能力逆襲GPT-5

團隊收集了 1460 條此類深度註釋,並將“修改前”與“修改後”的對比資料輸入到一個獎勵模型中論文。該模型透過學習截圖和自然語言描述,學會了像人類設計師一樣判斷 UI 的美觀度與功能性。

實驗資料顯示,基於“草圖反饋”訓練的模型表現最為優異論文。令人驚訝的是,僅依靠 181 個草圖註釋進行微調,該模型就實現了對 GPT-5 的超越。研究團隊表示,這證明了“少而精”的專家級反饋能讓小引數模型在特定領域展現出超越大模型的潛力。

蘋果新AI論文:微調Qwen3-Coder,生成UI能力逆襲GPT-5

研究還揭示了一個關鍵現象:設計審美具有高度主觀性論文。在單純的排序任務中,研究人員與設計師的觀點一致率僅為 49.2%,幾乎等同於拋硬幣。

然而,當設計師透過草圖或直接編輯來表達意圖後,雙方的一致率分別飆升至 63.6% 和 76.1%論文。這表明,在定義“什麼是更好的設計”時,具體的視覺修改(Show)遠比抽象的評分(Tell)更具共識價值,這也是未來 AI 輔助設計工具進化的核心方向。

參考

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://sdhbcy.com/post/12023.html

🌐 /