新智元報道
編輯論文:艾倫
【新智元導讀】《Nature》重磅:80 億引數小模型 OpenScholar 終結「引數崇拜」!它摒棄死記硬背,憑「檢索+自查」根治幻覺,在科學綜述任務上表現超越行業頂尖巨頭論文。
昨天,一篇剛剛登上《Nature》正刊的論文,開源了名為 OpenScholar 的模型,也同時被 Science 報道了論文。
它只有 8B 引數,但正是這個小模型,在科學文獻綜述任務上,擊敗了旗艦模型論文。
這是一場正規化轉移的訊號:在嚴謹的科學探索中,全知全能的「黑盒」記憶已成過去,精準呼叫的「外掛」知識庫才是未來論文。
展開全文
告別幻覺
彼時,科研人員對通用大模型愛恨交織論文。
恨意主要源於那個致命缺陷——幻覺論文。
當時的資料令人觸目驚心:當被要求回答生物醫學等領域的專業問題時,AI 偽造引用的比例一度高達 90%論文。
它能自信地編造出不存在的論文標題、作者甚至頁碼論文。對於需要字斟句酌的科學研究,這種不可靠性是毀滅性的。
OpenScholar 的出現,正是為了修正這一偏差論文。
由華盛頓大學和艾倫人工智慧研究所(Ai2)主導開發的這套系統,本質上不再試圖讓模型「記住」所有知識,而是教會模型如何像人類學者一樣去「查資料」論文。
OpenScholar 並不依賴引數中的模糊記憶,它外接了一個包含 4500 萬篇開放獲取論文的巨型資料庫論文。
當你提出一個問題時論文,它不會直接生成答案,而是執行一套嚴密的流程:
檢索:先在 4500 萬篇文獻中快速撈取最相關的片段論文。
重排序:利用交叉編碼器對片段進行精細篩選,去偽存真論文。
生成與反饋:這是最關鍵的一步論文。模型生成答案草稿後,會進行自我審查——「這句話有證據支援嗎?」如果發現證據不足,它會發起第二輪、第三輪檢索,直到每一條論述都有確鑿的文獻背書。
檢索:先在 4500 萬篇文獻中快速撈取最相關的片段論文。
重排序:利用交叉編碼器對片段進行精細篩選,去偽存真論文。
生成與反饋:這是最關鍵的一步論文。模型生成答案草稿後,會進行自我審查——「這句話有證據支援嗎?」如果發現證據不足,它會發起第二輪、第三輪檢索,直到每一條論述都有確鑿的文獻背書。
結果是降維打擊式的論文。在涵蓋電腦科學、物理學等領域的 ScholarQABench 基準測試中,OpenScholar-8B 的正確率不僅超越了當時的旗艦模型,更將推理成本降低了兩個數量級(約 0.003 美元/次)。
它證明了在特定領域,一個帶了「圖書館」的本科生,比一個赤手空拳卻愛產生幻覺的博士生更可靠論文。
DR Tulu
從「回答問題」到「深度研究」
如果說 OpenScholar 解決的是「準確性」問題,那麼素材中提及的後續迭代版本——DR Tulu(Deep Research Tulu),則是在向「深度」進軍論文。
科研往往不是簡單的一問一答,而是漫長的探索與綜合論文。
2025年11月釋出的 DR Tulu,針對的是長篇幅、多維度的「深度研究」任務論文。
它的核心突破在於引入了「演化評分規則的強化學習」(RLER, Reinforcement Learning with Evolving Rubrics)論文。
在以往的訓練中,AI 很難判斷一篇長達數千字的文獻綜述寫得好不好論文。
DR Tulu 並不依賴固定的評分標準,而是讓模型在搜尋和研究的過程中,動態生成針對當前問題的評分細則論文。
它既學習「什麼是好的研究策略」(如挖掘冷門資料來源),也學習「什麼是壞的行為」(如為了湊字數而堆砌引用)論文。
這種訓練讓 DR Tulu 具備了更強的規劃能力論文。
面對複雜的科學命題,它能像成熟的研究員一樣,先制定大綱,再分頭檢索,最後綜合多源資訊撰寫長篇報告論文。
在最新的測試中,DR Tulu-8B 的表現已經足以比肩甚至超越當時的旗艦專有模型,且程式碼和權重完全開源論文。
幕後推手:Akari Asai
這一系列顛覆性工作的核心人物,是即將於2026年秋季入職卡內基梅隆大學(CMU)的 Akari Asai(淺井明裡)論文。
這位從東京大學本科畢業、在華盛頓大學獲得博士學位的年輕學者,是近年來「檢索增強生成」(RAG)領域最活躍的聲音之一論文。
早在 Meta AI 實習期間,她就致力於解決大模型的知識瓶頸問題論文。
Akari Asai 的研究哲學非常清晰:不要試圖把世界裝進模型裡,要讓模型學會擁抱世界論文。
她主導的 OpenScholar 和 DR Tulu 專案,不僅是技術上的精進,更帶有一種強烈的「民主化」色彩論文。
透過開源高效能的小模型和檢索架構,她正在打破只有科技巨頭才能壟斷頂級科研 AI 工具的局面,讓全球資源匱乏地區的科學家也能擁有一位不知疲倦的「超級科研助理」論文。
結語
科學的本質不是記憶,而是發現論文。
當我們將 AI 從死記硬背的引數競賽中解放出來,賦予其查閱、驗證和反思的能力時,我們創造的不再是一個僅僅會聊天的機器,而是一把能幫人類在浩瀚知識海洋中披荊斬棘的利刃論文。
未來的科研,或許不再取決於你讀過多少論文,而在於你如何駕馭那位讀過所有論文的 AI 助手論文。
參考資料論文:
秒追ASI