摘要: 微軟近日宣布了其新的 rStar-Math 技術(shù),這一創(chuàng)新的推理方法可以應(yīng)用于小型語(yǔ)言模型(SLMs),該技術(shù)目前仍處于研究階段,相關(guān)研究論文已發(fā)布在 arXiv.org 上
微軟近日宣布了其新的 rStar-Math 技術(shù),這一創(chuàng)新的推理方法可以應(yīng)用于小型語(yǔ)言模型(SLMs),該技術(shù)目前仍處于研究階段,相關(guān)研究論文已發(fā)布在 arXiv.org 上,由微軟、北京大學(xué)和清華大學(xué)的八位作者共同完成。
rStar-Math核心在于,讓小模型具備深度思考的能力,利用蒙特卡羅樹(shù)搜索,這種方法模擬人類(lèi)的 “深度思考”,通過(guò)逐步細(xì)化數(shù)學(xué)問(wèn)題的解決方案來(lái)幫助小型模型自我演進(jìn)。
在測(cè)試中,rStar-Math 技術(shù)被應(yīng)用于多個(gè)小型開(kāi)源模型,包括微軟的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15億參數(shù)模型)和 Qwen-7B(70億參數(shù)模型)。測(cè)試結(jié)果顯示,所有參與的模型性能都有所提升,其中在 MATH 基準(zhǔn)測(cè)試中,rStar-Math 甚至超越了 OpenAI OpenAI o1-preview。
rStar-Math除了基準(zhǔn)測(cè)試成績(jī)亮眼,對(duì)比優(yōu)勢(shì)也十分明顯。它能顯著提升小型語(yǔ)言模型的推理能力,在模型規(guī)模遠(yuǎn)小于競(jìng)爭(zhēng)對(duì)手的情況下,超越了許多現(xiàn)有的 System 2 基線(xiàn)方法。它在不同類(lèi)型的數(shù)學(xué)基準(zhǔn)測(cè)試中都具有很強(qiáng)的泛化能力,在 Olympiad Bench、College Math 和高考數(shù)學(xué)等測(cè)試中均取得了新的領(lǐng)先成績(jī)。
微軟通過(guò) rStar-Math 展示了小型模型的潛力,強(qiáng)調(diào)了高效能的方向。
論文地址:https://arxiv.org/pdf/2501.04519
原標(biāo)題:100億!《哪吒2》背后是一個(gè)新系統(tǒng)的勝利 100億! 《哪吒2》到底做對(duì)
快資訊2025-02-14 19:13:38
原標(biāo)題:真奇葩!收700多元作業(yè)打印費(fèi),山西太原一中學(xué)沖上熱搜 在信息傳播
快資訊2025-02-14 18:50:48
原標(biāo)題:教師唐某某,雙開(kāi),已采取刑事強(qiáng)制措施! 據(jù)百色融媒微信公眾號(hào)消
快資訊2025-02-13 19:19:06
原標(biāo)題:《哪吒2》火到國(guó)外,激活一個(gè)高校專(zhuān)業(yè),動(dòng)畫(huà)專(zhuān)業(yè)擇校策略 近年來(lái),
快資訊2025-02-12 20:30:03
原標(biāo)題:Deepseek 好用嗎?深圳師生感嘆:很好很強(qiáng)大! 近段時(shí)間以來(lái),深圳不
快資訊2025-02-10 18:46:49
原標(biāo)題:丘成桐任院長(zhǎng)!知名大學(xué),成立新學(xué)院! 2月6日,香港中文大學(xué)宣布正
快資訊2025-02-08 10:16:38
原標(biāo)題:驚爆!上海某國(guó)際高中疑遭全美高校拉黑! 學(xué)術(shù)造假風(fēng)波,一波未平
快資訊2025-02-07 20:00:58
原標(biāo)題:成都6名學(xué)生收到劍橋offer,大部分是理工學(xué)科 1月30日,劍橋大學(xué)放榜
快資訊2025-02-06 19:29:07
原標(biāo)題:全國(guó)首家!985大學(xué),成立新學(xué)院! 1月22日 ,西安交通大學(xué)技術(shù)經(jīng)理人
快資訊2025-01-24 19:17:19