在人工智能領域,強化學習作為一種機器學習技術,近年來取得了顯著的進展。尤其是在深度學習模型如 Transformer、BERT 等的加持下,強化學習在自然語言處理、計算機視覺等任務中展現(xiàn)出了強大的潛力。近日,上海AI實驗室的一項研究成功打破了數(shù)學推理的極限,他們通過強化學習,無需蒸餾超大模型如 DeepSeek-R1,便超越了 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列。這一突破性的成果引起了業(yè)界和學術界的廣泛關注。
上海AI實驗室提出了基于結果獎勵的強化學習新范式。他們從 Qwen2.5-32B-Base 模型出發(fā),通過微調和基于結果反饋的強化學習,實現(xiàn)了對 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超強數(shù)學推理性能的超越。這一成果展示了強化學習在處理復雜任務上的優(yōu)勢,尤其是對于需要深度思考和推理的任務。
團隊發(fā)現(xiàn),當前大模型數(shù)學推理任務面臨“三重門”困局:稀疏獎勵困境、局部正確陷阱和規(guī)模依賴魔咒。傳統(tǒng)的強化學習算法在處理這些復雜任務時,往往難以應對稀疏獎勵和局部正確難題。然而,上海AI實驗室的研究團隊通過重新審視當前基于結果獎勵的強化學習算法,成功地解決了這些問題。
他們通過理論創(chuàng)新和嚴格的推導,提出了一種新的結果獎勵強化學習算法。該算法能夠根據(jù)正負樣本重塑獎勵,以維護策略優(yōu)化目標的一致性。同時,他們還發(fā)現(xiàn)不同的序列部分對結果的貢獻不同,因此需要更細粒度的獎勵分配函數(shù)。這一發(fā)現(xiàn)為強化學習在數(shù)學推理任務中的應用提供了新的思路和方法。
通過強化學習,上海AI實驗室成功地超越了 DeepSeek-R1,實現(xiàn)了驚人的效果。他們發(fā)現(xiàn),通過對正確樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規(guī)模的模型,僅通過強化學習即可達到驚人的效果。這一成果不僅為基于 RL 的方法樹立了新的里程碑,還超越了更大參數(shù)量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。這一突破性的進展為強化學習在自然語言處理和計算機視覺領域的應用開辟了新的道路。
上海AI實驗室的這項研究展示了強化學習在數(shù)學推理任務中的巨大潛力。他們的成果不僅為學術界提供了新的研究思路和方法,也為業(yè)界提供了新的技術手段和工具。未來,我們期待看到更多的研究者們利用強化學習來探索更多的應用領域,推動人工智能技術的進一步發(fā)展。
?。庳熉暶鳎罕揪W(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

全新顛覆!DeepSeek R1深度推理詞典筆破價1699元,有道SpaceOne全面屏解答神器震撼登場
OpenAI聯(lián)合創(chuàng)始人Sutskever引領AI新秀,估值飆升至300億美元,打造超級智能安全新紀元
上海AI實驗室通過強化學習成功引領數(shù)學推理新突破,無需依賴超大模型,已超越DeepSeek-R1等系列。這一成果為強化學習在自然語言處理和計算機視覺領域的應用開辟了新的道路。
上一篇:字節(jié)CEO反思DeepSeek:為何跟進速度不夠,深度探索