近日,九章云極DataCanvas公司聯(lián)合中國(guó)人民大學(xué)STILL項(xiàng)目團(tuán)隊(duì)、北京智源研究院團(tuán)隊(duì)聯(lián)合在大模型慢思考推理技術(shù)上形成系列技術(shù)成果,初步復(fù)現(xiàn)類R1推理模型,完整開源了類R1類的實(shí)現(xiàn)細(xì)節(jié)以及訓(xùn)練技巧。進(jìn)一步,創(chuàng)新性提出使用代碼工具來增強(qiáng)模型推理性能,在AIME數(shù)學(xué)推理測(cè)試中超越DeepSeek-R1的模型性能。 相關(guān)成果已經(jīng)形成論文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在預(yù)印版論文網(wǎng)站 arXiv上公開發(fā)表。
九章云極DataCanvas聯(lián)合研究團(tuán)隊(duì)公布了復(fù)現(xiàn)DeepSeek- R1全參數(shù)微調(diào)開源方案,并發(fā)布了全新的強(qiáng)化學(xué)習(xí)訓(xùn)練模型STILL-3-Tool-32B。這個(gè)方案完整開放了從模型訓(xùn)練到推理部署的全鏈路工程代碼,同步公開實(shí)踐驗(yàn)證過的技術(shù)經(jīng)驗(yàn)與調(diào)優(yōu)策略,為開發(fā)者提供可直接部署的工業(yè)化級(jí)大模型訓(xùn)練框架。研究成果顯示,該模型在 AIME 2024 基準(zhǔn)上取得了81.70%準(zhǔn)確率(采樣),超越了DeepSeek-R1滿血版。該成果在GitHub社區(qū)中詳細(xì)闡述,并公開了相關(guān)開源鏈接。

論文地址:https://arxiv.org/pdf/2503.04548
開源鏈接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
STILL-3-Tool-32B模型是九章云極DataCanvas聯(lián)合團(tuán)隊(duì)在基于長(zhǎng)鏈復(fù)雜推理模型訓(xùn)練框架上的又一次重要?jiǎng)?chuàng)新實(shí)踐。該研究論文表明,在已接近性能巔峰的蒸餾模型上,通過該強(qiáng)化學(xué)習(xí)訓(xùn)練方法也可以大幅提升AIME 2024的準(zhǔn)確率,這一研究結(jié)果將極大促進(jìn)正在運(yùn)行中的較大模型的回復(fù)長(zhǎng)度和推理準(zhǔn)確性。面對(duì)語言推理可能存在精準(zhǔn)性不夠的問題,STILL-3-Tool-32B模型引入了外部工具來加強(qiáng)AI模型的復(fù)雜推理能力。在AIME 2024上取得81.70%準(zhǔn)確率(采樣),以15.56%的顯著優(yōu)勢(shì)超越其基座訓(xùn)練模型,與OpenAI o3-mini持平,超越o1 和DeepSeek-R1同場(chǎng)景表現(xiàn)。

自DeepSeek-R1技術(shù)報(bào)告公布后,開源模型仍然復(fù)現(xiàn)面臨代碼完整性缺失、超參數(shù)調(diào)試等共性難題,九章云極DataCanvas聯(lián)合團(tuán)隊(duì)通過AI基礎(chǔ)設(shè)施深度融合實(shí)現(xiàn)突破。研究同步開源了該模型在DataCanvas Alaya NeW智算操作系統(tǒng)上完成的全過程完整訓(xùn)練日志、獎(jiǎng)勵(lì)函數(shù)代碼及容器化部署方案。研究結(jié)果公布,在Alaya NeW中采用on-policy 學(xué)習(xí)策略是成功的關(guān)鍵因素,其將DeepSeek背后的基于規(guī)則的強(qiáng)化學(xué)習(xí)方法加以微調(diào),充分探索了相關(guān)的超參數(shù)設(shè)置以及訓(xùn)練技巧。
值得關(guān)注的是,DeepSeek以及蒸餾模型在推理過程中無法調(diào)用外部代碼工具,而這恰是復(fù)現(xiàn)的關(guān)鍵難點(diǎn)。研究結(jié)果顯示,Alaya NeW智算操作系統(tǒng)在開源工具鏈與基座模型適配、算法與算力協(xié)同、邏輯推理與多步?jīng)Q策等復(fù)雜任務(wù)框架方面表現(xiàn)出明顯優(yōu)勢(shì),有望推動(dòng)AI技術(shù)的進(jìn)一步發(fā)展。