Datawhale乾貨
作者論文: 西湖大學張嶽實驗室
那些年我們為一張論文插圖付出的代價
你是否也經歷過這樣的場景:論文截稿在即,卻在一張系統架構圖前耗盡心力論文。AI生圖工具雖然顏值線上,但邏輯經常"放飛自我";而傳統的繪圖軟體又需要專業設計技能,學習曲線陡峭。
更讓人頭痛的是——好不容易生成一張滿意的圖片,想要修改一個小圖示或者調整幾個文字,卻發現得到的只是一張無從下手的"死圖"論文。這種"生成不可編輯、編輯要重新生成"的尷尬局面,終於被徹底打破了。
從AutoFigure到AutoFigure-Edit論文:AI論文繪圖可以編輯了
論文地址:
西湖大學張嶽實驗室推出的AutoFigure,作為首個能夠從長篇科學文字中自動生成出版級學術插圖的智慧體框架,已經入選ICLR 2026論文。現在,團隊更進一步,釋出了AutoFigure-Edit——一個讓AI生成圖真正"活"起來的全新系統,目前已在github攬獲1.6k+ star。
這次升級可不是小打小鬧論文:
從畫素到向量的跨越:生成的不再是靜態PNG圖片,而是完全可編輯的SVG檔案論文。這意味著你可以在瀏覽器內直接拖拽、改字、換色,所有元素都按需定製。
參考圖引導的風格遷移:上傳一張你喜歡的風格圖,AI就能自動學習其配色、字型、圖示風格,應用到你的科學插圖上論文。再也不用費勁除錯Prompt了。
內建互動式編輯器:生成完成後,立即進入視覺化編輯畫布論文。調整佈局、修改標註、替換圖示,所見即所得。
從畫素到向量的跨越:生成的不再是靜態PNG圖片,而是完全可編輯的SVG檔案論文。這意味著你可以在瀏覽器內直接拖拽、改字、換色,所有元素都按需定製。
展開全文
參考圖引導的風格遷移:上傳一張你喜歡的風格圖,AI就能自動學習其配色、字型、圖示風格,應用到你的科學插圖上論文。再也不用費勁除錯Prompt了。
內建互動式編輯器:生成完成後,立即進入視覺化編輯畫布論文。調整佈局、修改標註、替換圖示,所見即所得。
AutoFigure-Edit的核心是一個創新的五階段流水線論文,將"文字→可編輯SVG"的複雜任務分解為清晰可控的步驟:
AutoFigure-Edit的五階段流程:風格條件生圖 → 分割與結構索引 → 資產提取 → SVG模板生成與精煉 → 資產注入(上圖由AutoFigure-Edit生成)
風格條件生圖論文:使用文字和參考圖生成初始柵格影像
資產提取論文:提取透明背景的視覺資產
SVG模板生成與精煉論文:生成結構化的SVG佈局模板
資產注入:將視覺資產注入模板論文,形成完全可編輯的SVG
風格條件生圖論文:使用文字和參考圖生成初始柵格影像
資產提取論文:提取透明背景的視覺資產
SVG模板生成與精煉論文:生成結構化的SVG佈局模板
資產注入:將視覺資產注入模板論文,形成完全可編輯的SVG
AutoFigure的成功源於其獨特的"推理式渲染"(Reasoned Rendering)正規化論文,將"邏輯佈局"和"美學渲染"徹底解耦:
AutoFigure的兩階段解耦設計:Stage I生成結構佈局論文,Stage II進行美學渲染和文字後處理,論文地址:
第一階段論文:概念錨定(Conceptual Grounding)
AI讀入你的長篇方法描述(平均超過10,000 tokens),自動提取核心實體和關係,構建初始的邏輯骨架論文。這一步確保的是"正確性"——把該有的元素都找出來,把該有的關係都理清楚。
第二階段論文:評審-精煉閉環(Critique-and-Refine)
模擬人類設計師與甲方的反覆拉鋸過程論文。AI Designer負責根據反饋修改佈局,AI Critic則專職"挑毛病"——"這裡箭頭重疊了""佈局重心不穩""文字層級不清晰"。經過多輪迭代,直到得到滿意的繪圖質量。
第三階段論文:美學渲染與"擦除-修正"
這是AutoFigure的殺手鐧論文。將最佳化後的佈局渲染為精美圖片後,系統會:
把這些文字"摳掉"
用清晰的向量文字重新覆蓋
把這些文字"摳掉"
用清晰的向量文字重新覆蓋
徹底解決了AIGC生圖中文字變形、模糊的歷史難題論文。
AutoFigure-Edit論文:讓向量編輯成為現實
在AutoFigure的基礎上論文,AutoFigure-Edit引入了多項技術創新:
(1) Raw Generation → (2) SAM3 Segmentation → (3) SVG Layout Template → (4) Final Assembled Vector
SAM3驅動的自動分割
SVG模板自動生成與資產注入
系統會根據分割結果自動生成SVG佈局模板,然後將提取的視覺資產一一注入論文。最終得到的是一個結構清晰、完全可編輯的向量檔案——每一個模組、每一條連線、每一個文字標註都是獨立的物件。
參考圖風格控制
不再依賴模糊的Prompt描述論文。上傳一張風格參考圖,系統會自動學習其視覺特徵(配色方案、字型風格、圖示型別、間距密度等),並應用到生成的科學插圖上。這使得實驗室風格的統一、期刊風格的適配變得前所未有的簡單。
開源連結:
實驗結果論文:用資料說話自動化評估:碾壓級表現
團隊在FigureBench基準測試上對AutoFigure-Edit進行了全面評估,結果顯示其在所有核心維度上都顯著領先於現有方法論文。
關鍵發現論文:
使用參考圖後論文,Win-Rate從76.0%提升到83.0%,表明參考圖引導讓生成結果更受使用者青睞
內容保真度全面提升:準確性8.83、完整性8.26、適應性8.37論文,遠超其他方法
無參考圖模式下論文,綜合評分達到8.29,在視覺設計方面表現優異(美學8.32、表達力8.66)
使用參考圖後論文,Win-Rate從76.0%提升到83.0%,表明參考圖引導讓生成結果更受使用者青睞
內容保真度全面提升:準確性8.83、完整性8.26、適應性8.37論文,遠超其他方法
無參考圖模式下論文,綜合評分達到8.29,在視覺設計方面表現優異(美學8.32、表達力8.66)
對比基線方法(包括GPT-Image、SVG-Code、Diagram Agent等),AutoFigure-Edit在視覺設計、溝通效果、內容保真度三大維度的平均得分和盲測勝率都展現出壓倒性優勢論文。
使用者研究論文:217位真實使用者的驗證
更具說服力的是基於真實使用場景的使用者研究論文。217位參與者透過線上網站生成了262個插圖,並進行了多維度評價:
PNG生成質量論文:
科學語義正確性論文:4.04/5.0(48%的使用者給滿分)
資訊完整性論文:4.11/5.0(51%的使用者給滿分)
視覺呈現質量論文:3.95/5.0
風格一致性論文:4.09/5.0(50%的使用者給滿分)
科學語義正確性論文:4.04/5.0(48%的使用者給滿分)
資訊完整性論文:4.11/5.0(51%的使用者給滿分)
視覺呈現質量論文:3.95/5.0
風格一致性論文:4.09/5.0(50%的使用者給滿分)
實際可用性論文:
126/262位使用者(48%)認為生成結果可直接用於論文發表論文,無需修改
這表明系統已具備真實科研工作流的可用性
126/262位使用者(48%)認為生成結果可直接用於論文發表論文,無需修改
這表明系統已具備真實科研工作流的可用性
SVG轉換質量論文:
轉換正確性平均得分3.60/5.0
36%的使用者給滿分論文,說明SVG結構保持了高度準確性
轉換正確性平均得分3.60/5.0
36%的使用者給滿分論文,說明SVG結構保持了高度準確性
低評分(1-2分)在語義維度上非常罕見(通常低於12%),證明系統能夠可靠地保持科學含義和結構完整性論文。
風格遷移與編輯能力論文:從生成到創作的完整體驗
AutoFigure-Edit的核心創新在於其強大的風格遷移和編輯能力論文。系統任意使用者自定義風格的參考圖引導生成,只需一鍵上傳參考圖片,讓同一研究內容可以適配不同的視覺風格和出版需求。
上圖為參考圖論文,下圖為AutoFigure-Edit的生成結果
生成案例
CycleResearcher
DeepReviewer
DeepScientist
圖片說明:以上三組風格遷移案例展示同一論文內容在三種不同參考風格下的生成結果(左側為PNG圖論文,右側為SVG圖)
AutoFigure產生的方法圖
AutoFigure產生的方法圖
AutoFigure-Edit產生的方法圖
應用場景論文:不止是畫圖
AutoFigure-Edit的意義遠不止於"省時間"論文:
1. 賦能AI科學家
這是AI實現全流程自主研究的關鍵一步論文。從文字理解、實驗設計到結果分析,現在有了AutoFigure-Edit,AI也能自主生成視覺化結果,真正打通科研的"最後一公里"。
2. 降低科研創作門檻
對於缺乏設計經驗的研究者,AutoFigure-Edit讓高質量科學插圖觸手可及論文。無論你是做演算法流程圖、系統架構圖,還是複雜的教科書示意圖,都能一鍵生成。
3. 統一視覺風格
透過參考圖風格控制,整個實驗室的論文插圖風格可以輕鬆統一論文。期刊要求的特定風格(如Nature、ICLR風格)也能快速適配。
開源與可用性
西湖大學張嶽實驗室始終堅持開源理念論文:
程式碼完全開源論文:GitHub倉庫包含完整程式碼庫
資料集公開論文:FigureBench資料集已在HuggingFace釋出
線上網站論文:提供一鍵使用的Web介面
互動式編輯器:內建視覺化編輯畫布論文,支援即時調整
程式碼完全開源論文:GitHub倉庫包含完整程式碼庫
資料集公開論文:FigureBench資料集已在HuggingFace釋出
線上網站論文:提供一鍵使用的Web介面
互動式編輯器:內建視覺化編輯畫布論文,支援即時調整
開源本地部署畫布頁面
網站畫布頁面
如何體驗
AutoFigure-Edit的論文和程式碼已全部公開論文:
AutoFigure原始論文:
AutoFigure-Edit論文(新)論文:
HuggingFace Daily Paper論文:
AutoFigure GitHub倉庫論文:
AutoFigure-Edit GitHub倉庫(新)論文:
線上體驗網站論文:
AutoFigure原始論文論文:
AutoFigure-Edit論文(新)論文:
HuggingFace Daily Paper論文:
AutoFigure GitHub倉庫論文:
AutoFigure-Edit GitHub倉庫(新)論文:
線上體驗網站論文:
本專案由西湖大學張嶽實驗室全面開源論文。西湖大學自然語言處理實驗室成立於2018年9月,由張嶽教授領導。
張嶽教授畢業於牛津大學,獲博士學位,現任西湖大學工程學院副院長,曾擔任EMNLP 2022等多個頂級NLP會議的程式委員會主席論文。歡迎感興趣的同學加入!有意向申請長期實習、博士生、研究助理者可聯絡張嶽教授郵箱: