首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

九章云極聯(lián)合團(tuán)隊(duì)大模型慢思考推理技術(shù)獲系列成果預(yù)印版論文于arXiv發(fā)表

2025年3月12日 16:47  CCTIME飛象網(wǎng)  

近日,九章云極DataCanvas公司聯(lián)合中國(guó)人民大學(xué)STILL項(xiàng)目團(tuán)隊(duì)、北京智源研究院團(tuán)隊(duì)聯(lián)合在大模型慢思考推理技術(shù)上形成系列技術(shù)成果,初步復(fù)現(xiàn)類R1推理模型,完整開源了類R1類的實(shí)現(xiàn)細(xì)節(jié)以及訓(xùn)練技巧。進(jìn)一步,創(chuàng)新性提出使用代碼工具來增強(qiáng)模型推理性能,在AIME數(shù)學(xué)推理測(cè)試中超越DeepSeek-R1的模型性能。 相關(guān)成果已經(jīng)形成論文《An Empirical Study on Eliciting and Improving R1-like Reasoning Models》,在預(yù)印版論文網(wǎng)站 arXiv上公開發(fā)表。

九章云極DataCanvas聯(lián)合研究團(tuán)隊(duì)公布了復(fù)現(xiàn)DeepSeek- R1全參數(shù)微調(diào)開源方案,并發(fā)布了全新的強(qiáng)化學(xué)習(xí)訓(xùn)練模型STILL-3-Tool-32B。這個(gè)方案完整開放了從模型訓(xùn)練到推理部署的全鏈路工程代碼,同步公開實(shí)踐驗(yàn)證過的技術(shù)經(jīng)驗(yàn)與調(diào)優(yōu)策略,為開發(fā)者提供可直接部署的工業(yè)化級(jí)大模型訓(xùn)練框架。研究成果顯示,該模型在 AIME 2024 基準(zhǔn)上取得了81.70%準(zhǔn)確率(采樣),超越了DeepSeek-R1滿血版。該成果在GitHub社區(qū)中詳細(xì)闡述,并公開了相關(guān)開源鏈接。

論文地址:https://arxiv.org/pdf/2503.04548

開源鏈接:https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

STILL-3-Tool-32B模型是九章云極DataCanvas聯(lián)合團(tuán)隊(duì)在基于長(zhǎng)鏈復(fù)雜推理模型訓(xùn)練框架上的又一次重要?jiǎng)?chuàng)新實(shí)踐。該研究論文表明,在已接近性能巔峰的蒸餾模型上,通過該強(qiáng)化學(xué)習(xí)訓(xùn)練方法也可以大幅提升AIME 2024的準(zhǔn)確率,這一研究結(jié)果將極大促進(jìn)正在運(yùn)行中的較大模型的回復(fù)長(zhǎng)度和推理準(zhǔn)確性。面對(duì)語言推理可能存在精準(zhǔn)性不夠的問題,STILL-3-Tool-32B模型引入了外部工具來加強(qiáng)AI模型的復(fù)雜推理能力。在AIME 2024上取得81.70%準(zhǔn)確率(采樣),以15.56%的顯著優(yōu)勢(shì)超越其基座訓(xùn)練模型,與OpenAI o3-mini持平,超越o1 和DeepSeek-R1同場(chǎng)景表現(xiàn)。

自DeepSeek-R1技術(shù)報(bào)告公布后,開源模型仍然復(fù)現(xiàn)面臨代碼完整性缺失、超參數(shù)調(diào)試等共性難題,九章云極DataCanvas聯(lián)合團(tuán)隊(duì)通過AI基礎(chǔ)設(shè)施深度融合‌實(shí)現(xiàn)突破。研究同步開源了該模型在DataCanvas Alaya NeW智算操作系統(tǒng)上完成的全過程完整訓(xùn)練日志、獎(jiǎng)勵(lì)函數(shù)代碼及容器化部署方案。研究結(jié)果公布,在Alaya NeW中采用on-policy 學(xué)習(xí)策略是成功的關(guān)鍵因素,其將DeepSeek背后的基于規(guī)則的強(qiáng)化學(xué)習(xí)方法加以微調(diào),充分探索了相關(guān)的超參數(shù)設(shè)置以及訓(xùn)練技巧。

值得關(guān)注的是,DeepSeek以及蒸餾模型在推理過程中無法調(diào)用外部代碼工具,而這恰是復(fù)現(xiàn)的關(guān)鍵難點(diǎn)。研究結(jié)果顯示,Alaya NeW智算操作系統(tǒng)在開源工具鏈與基座模型適配、算法與算力協(xié)同、邏輯推理與多步?jīng)Q策等復(fù)雜任務(wù)框架方面表現(xiàn)出明顯優(yōu)勢(shì),有望推動(dòng)AI技術(shù)的進(jìn)一步發(fā)展。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
聚焦2025全國(guó)兩會(huì)
2025年世界移動(dòng)通信大會(huì)
低空經(jīng)濟(jì)2025:助力中國(guó)經(jīng)濟(jì)騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點(diǎn)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像