亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区

首頁 > 生活知識 > 生活知識 > 比GPT-5還準?AIME25飆到99.9%刷屏,開源模型首次

比GPT-5還準?AIME25飆到99.9%刷屏,開源模型首次

發(fā)布時間:2025-08-24 11:55:03

DeepConf由Meta AI與加州大學(xué)圣地亞哥分校提出,核心思路是讓大模型在推理過程中實時監(jiān)控置信度,低置信度路徑被動態(tài)淘汰,高置信度路徑則加權(quán)投票,從而兼顧準確率與效率。在AIME 2025上,它首次讓開源模型無需外部工具便實現(xiàn)99.9%正確率,同時削減85%生成token。

如何讓模型在思考時更聰明、更高效,還能對答案有把握?

最近,Meta AI與加州大學(xué)圣地亞哥分校的研究團隊給出了一個令人振奮的答案——Deep Think with Confidence(DeepConf),讓模型自信的深度思考。

論文地址:https://arxiv.org/pdf/2508.15260

項目主頁:https://jiaweizzhao.github.io/deepconf

這項新方法通過并行思考與「置信度篩選」,不僅讓模型在國際頂尖數(shù)學(xué)競賽AIME 2025上拿下了高達99.9%的正確率。

可以說,這是首次利用開源模型在AIME 2025上實現(xiàn)99.9%的準確率,并且不使用任何工具!

并且在保持高質(zhì)量推理的同時,將生成的token數(shù)量削減了84.7%

DeepConf還為并行思考(parallel thinking)帶來了多項硬核優(yōu)勢:

性能飆升:在各類模型與數(shù)據(jù)集上,準確率平均提升約10%

極致高效:生成token數(shù)量銳減高達85%

即插即用:兼容任何現(xiàn)有模型——無需額外訓(xùn)練(也無需進行超參數(shù)微調(diào)!)

輕松部署:在vLLM中僅需約50行代碼即可集成

以DeepConf在HMMT 25(哈佛–麻省理工數(shù)學(xué)競賽)的第11道題目上的推理過程為例。

核心思想是DeepConf通過「置信度信號」篩選推理路徑,從而得到高質(zhì)量答案,并在效率與準確率之間取得平衡。

橫軸(token index):表示模型生成的推理步驟(隨著token逐步增加)。

縱軸(confidence):表示每條推理路徑在該步驟上的置信度水平。

綠色曲線:表示不同推理路徑的置信度軌跡,越深的綠色表示置信度越高。

紅色叉叉:低于置信度閾值的推理路徑,被動態(tài)篩除。

綠色對勾:最終被保留下來的高置信度路徑。

最終表決:這些路徑在基于置信度加權(quán)的多數(shù)表決下,最終得出統(tǒng)一答案:29。

DeepConf在生成過程中,會持續(xù)監(jiān)控推理路徑的置信度,低置信度路徑被及時淘汰,只保留「更有把握」的路徑,提升整體準確性。

通過準確率對比曲線,上圖可以看出縱軸是accuracy(準確率),黃色曲線(DeepConf)比藍色曲線(標準方法)明顯更高。

表明DeepConf在相同投票規(guī)模下能達到更高的準確率。

下圖橫軸是token數(shù)量(推理所需的計算成本),黃色曲線在準確率保持較高的同時,token消耗明顯更少。

表明DeepConf大幅減少了無效token的生成,推理效率更優(yōu)。

DeepConf讓模型不再「胡思亂想」,而是高效地走在高置信度的推理軌道上。

DeepConf支持兩種工作模式:

離線模式:根據(jù)置信度篩選已完成的推理路徑,然后根據(jù)質(zhì)量對投票進行加權(quán)。

在線模式:當置信度實時降至閾值以下時,立即停止生成。

DeepConf的秘訣是什么?

其實,LLM知道自己何時開始不確定的,只是大家一直沒有認真關(guān)注過他們的「思考過程」。

之前的方法在完整生成之后使用置信度/熵用于測試時和強化學(xué)習(xí)(RL)。

DeepConf的方法不同,不是在完成后,而是在生成過程中捕捉推理錯誤。

DeepConf實時監(jiān)控「局部置信度」,在錯誤的推理路徑消耗數(shù)千個token之前及時終止。

只有高質(zhì)量、高置信度的推理路徑才能保留下來!

DeepConf是怎樣「用置信度篩選、用置信度投票」?

這張圖展示了DeepConf在離線思考時的核心機制:

它先判斷哪些推理路徑值得信賴,把不靠譜的路徑提前剔除,再讓靠譜的路徑進行加權(quán)投票,從而得到一個更準確、更高效的最終答案。

首先是每一token「有多確定」。

當模型在寫推理步驟時,其實每個詞(token)背后都有一個「信心值」。

如果模型覺得「這一步答案很靠譜」,信心值就高。如果它自己都拿不準,這個信心值就會低。

上圖里用不同深淺的綠色和紅色標出來:綠色=更自信,紅色=不自信。

其次,不光要看單token,還要看整體趨勢。

DeepConf不只看某一個詞,而是會滑動窗口:看看一小段話里的平均信心值,衡量「這段話整體是否靠譜」。

重點看看最后幾句話的信心值,因為最終答案、最終結(jié)論往往決定于結(jié)尾。

DeepConf也會記下這條推理鏈里最差的一步,如果中間有明顯「翻車」,這條路徑就不太可靠。

這樣一來,每條完整的推理鏈路都會得到一個綜合的「置信度分數(shù)」。

最后,是先淘汰,再投票。

當模型并行生成很多條不同的推理路徑時:

第一步:過濾,把「置信度分數(shù)」排序,最差的10%直接丟掉,避免浪費。

第二步:投票,在剩下的推理鏈里,不是簡單數(shù)票,而是按照置信度加權(quán)投票。

也就是說:一條高置信度的路徑,它的意見分量更大;低置信度的路徑,即便答案一樣,也不會拉高太多票重。

最后看一下結(jié)果,在圖的右邊可以看到:有的路徑說「答案是109」,有的說「答案是103、104、98」。

但由于支持「109」的路徑更多、而且置信度更高,所以最終投票選出了109作為答案。

成績刷爆99.9%

比GPT-5還高

離線模式結(jié)果:在AIME 2025上達到99.9%的準確率(基線為97%)!

在5個模型×5個數(shù)據(jù)集上實現(xiàn)普適性增益。

在所有設(shè)置下均取得約10%的穩(wěn)定準確率提升。

在線模式結(jié)果:在所有基準測試中節(jié)省33%-85%的token!

在AIME 2025基準測試中,使用GPT-OSS-120B,在減少85%的token消耗下,仍達到97.9%的準確率。

該方法適用于從8B到120B的各類開源模型——在不犧牲質(zhì)量的前提下實現(xiàn)實時高效。

在離線環(huán)境中對置信度度量進行基準測試。報告的數(shù)值為準確率(%)。

Cons@512和mean@512分別表示使用512條推理軌跡進行的多數(shù)投票結(jié)果,以及平均置信度的均值。所有實驗均重復(fù)進行了64次。

在在線環(huán)境中對DeepConf進行基準測試。

在投票規(guī)模預(yù)算為512的條件下,報告多數(shù)投票方法與DeepConf(高/低)的方法的準確率(%)以及生成的token數(shù)量(×10?)。

基于置信度的深度思考

研究者的思考是:到底怎么把「置信度」用得更巧妙,讓模型既想得更準,又想得更快呢?

正如前文所述,這里可以分成兩個使用場景:

離線思考:等模型把一整條推理路徑都寫完了,再回頭去評估每條路徑的置信度,把靠譜的結(jié)果聚合在一起。這樣做的好處是能最大化提升答案的準確性

在線思考:在模型一步步生成推理的過程中,就實時參考置信度。如果發(fā)現(xiàn)某條思路不靠譜,可以及時停掉,避免浪費算力。這樣能邊走邊篩選,提升效率甚至精度

離線思考

在離線思考模式下,每個問題的所有推理路徑均已生成。

此時的核心挑戰(zhàn)是:如何聚合來自多條路徑的信息,從而更準確地確定最終答案。

針對這一點,研究人員采用了標準的多數(shù)投票(majority voting)方法。

多數(shù)投票(Majority Voting)

在標準的多數(shù)投票中,每條推理路徑得出的最終答案對最終決策的貢獻是均等的。

設(shè)T為所有已生成路徑的集合,對于任意路徑t∈T,設(shè)answer(t)為從該路徑中提取的答案文本。

那么,每個候選答案a的票數(shù)為:

置信度加權(quán)多數(shù)投票

這個方法不再均等對待每條路徑的投票,而是依據(jù)其關(guān)聯(lián)路徑的置信度,為每個最終答案賦予權(quán)重。

對于每個候選答案a,它的總投票權(quán)會被重定義為:

置信度過濾

在加權(quán)多數(shù)投票的基礎(chǔ)上,還需要應(yīng)用置信度過濾,才能在將投票更集中于高置信度的推理路徑。

具體來說就是,通過路徑的置信度分數(shù),篩選出排序前η%的路徑,從而確保只有最可靠的路徑參與最終答案的決定。

選擇前10%:專注于置信度最高的少數(shù)路徑。適用于少數(shù)路徑就能解決問題的場景,但風險是如果模型存在偏見,容易選錯答案。

選擇前90%:納入更廣泛的路徑。這種方法能保持多樣性、減少模型偏見,在各路徑置信度相差不大時尤其穩(wěn)健。

圖3闡釋了各種置信度度量方法以及基于置信度的離線思考的工作原理。

算法1則提供了該算法的詳細實現(xiàn)。

在線思考

在線思考模式通過在生成過程中實時評估推理路徑的質(zhì)量,來動態(tài)終止低質(zhì)量的路徑,進而確保其在后續(xù)的置信度過濾階段大概率能被排除。

對此,研究人員提出了兩種基于最低分組置信度,并會自適應(yīng)地中止生成過程并調(diào)整推理路徑的預(yù)算的方法:DeepConf-low和DeepConf-high。

其中,共包含兩大核心組件:離線預(yù)熱與自適應(yīng)采樣。

離線預(yù)熱(Offline Warmup)

DeepConf需要一個離線預(yù)熱階段,以便為在線決策過程建立停止閾值s。

對于每個新的提示詞,首先生成Ninit條推理路徑(例如,Ninit=16)。

停止閾值s定義為:

在所有配置下,DeepConf-low均統(tǒng)一采用前η=10%的策略,而DeepConf-high則統(tǒng)一采用前η=90%的策略。

在在線生成過程中,一旦某條推理路徑的置信度低于預(yù)熱階段的數(shù)據(jù)所設(shè)定的、能夠篩選出置信度排序前η%路徑的最低門檻,生成過程就會被終止。

自適應(yīng)采樣(Adaptive Sampling)

在DeepConf中,所有方法都采用了自適應(yīng)采樣,如此就可以根據(jù)問題難度動態(tài)調(diào)整所生成推理路徑的數(shù)量。

問題難度通過已生成路徑之間的一致性程度來評估,其量化方式為多數(shù)投票權(quán)重與總投票權(quán)重的比值:

若β

由于采用的是最低分組置信度,一個足夠大的預(yù)熱集便能產(chǎn)生對停止閾值s的精確估計。

因此,任何被在線終止的路徑,其分組置信度必然低于s,也就會被離線過濾器所排除。

這樣,在線流程便能近似于離線的最低分組置信度策略,并且隨著Ninit的增加,其準確率會逼近離線策略的準確率。

圖4中闡釋了在線生成的過程。

算法2則提供了該算法的詳細實現(xiàn)。

具體過程,我們就用上圖里的這道「勾股三元組計數(shù)」問題舉個例子。

DeepConf要在生成推理的同時判斷:哪條思路靠譜、該繼續(xù);哪條思路不靠譜、該盡早停,從而少花token、又更準。

兩個階段:先定閾值,再在線篩

1. Offline Warm-up(上圖右側(cè),離線預(yù)熱)

先離線跑幾條完整的推理軌跡(Trace 1~5),給每條算一個「整體有多靠譜」的分數(shù)。

按分數(shù)做一次置信度過濾,好的軌跡在上方(綠色),差的在下方(紅色)。

據(jù)此確定一個停止閾值s(圖中綠色箭頭標注)。

簡單來說就是低于 s 的,通常是不值得繼續(xù)的推理。

這一步就像「熱身+標定」,模型把「該不該停」的門檻先定好。

2. Online Generation(上圖中間,在線生成)

正式解題時,同時展開多條并行思路(多行的方塊序列)。

對每條思路,系統(tǒng)滾動地評估「這段話最近一小段的可靠度」(圖中方塊從左到右代表一步步的生成)。

左下 & 右下的小曲線各自表示模型的「把握」程度。

左下綠曲線表示模型對接下來的詞更「有把握」,示例文本是正經(jīng)的數(shù)學(xué)推理(如「勾股三元組公式…」),這類內(nèi)容通常被保留。

右下紅曲線表示模型在猶豫或「自我懷疑」,示例文本是「讓我再想想、回頭檢查一下…」,這類猶豫/兜圈子的片段常被判為低置信度,從而觸發(fā)在線早停。

先離線確定「可靠度閾值s」,再在線用s給并行思路「邊走邊檢查」。

不靠譜就當場叫停,靠譜的繼續(xù)前進。這樣就能做到既快又準了。

作者介紹

Yichao Fu

論文一作Yichao Fu是加州大學(xué)圣地亞哥分校(UC San Diego)計算機科學(xué)與工程系的博士生,師從張昊教授,也就是老朋友Hao AI Lab的負責人。

此前,他在浙江大學(xué)獲得計算機科學(xué)學(xué)士學(xué)位。

他的研究興趣主要為分布式系統(tǒng)、機器學(xué)習(xí)系統(tǒng)以及高效機器學(xué)習(xí)算法,近期專注于為LLM的推理過程設(shè)計并優(yōu)化算法與系統(tǒng)。

他參與的項目包括:Lookahead Decoding、vllm-ltr和Dynasor。

生活知識更多>>

三年貶值50%,新能源車保值率比樓價跌幅更大 紛紛調(diào)高評級,比亞迪成為國際資本眼中的“香餑餑” “寒冬”突襲,12月汽車銷量急速下滑,車市為何突然“涼了”? 行業(yè)競爭加劇,花旗等國際資本為何偏偏看好比亞迪 歐拉5歐洲路試諜照曝光 預(yù)計2026年初登陸歐洲市場 顏值與實力雙在線,江淮駿鈴A7是他快遞運輸路上的硬核底氣 極氪9X成功了?11月熱銷8121輛,比問界M9還要賣得好 打出境界組合,華為系眾車企湊齊“首發(fā)”11人 2025(第二十屆)中國汽車金扳手獎評選頒獎典禮成功舉辦 奔馳的“這波產(chǎn)品升級”,答案遠比想象得更直接 懲罰性關(guān)稅一年,中國汽車為何在歐銷量激增93% 邁騰 2026款限時禮遇,比《瘋狂動物城2》還瘋狂 一次讓車機更好用的OTA!蒙迪歐車主必更 2025車市期末大考:銷量完成度折射出車企三大陣營分化 方程豹鈦3冬季續(xù)航實測:13萬純電方盒子,跑高速靠譜么? 比亞迪放大招了?這些車型又升級了,ETC能自己過,比肩華為ADS 賺錢門路來了!車企為銷量有多拼?4S店花錢請人試駕,600塊/次 歐盟禁止燃油令 即將成為爛尾政策? 威馬汽車又傳復(fù)活信號,兩款新車將于明年上市? 2025年11月乘用車細分市場車型走勢 11月份本田汽車在華最新銷量公布! BBA豪車市場的音響溢價,被新勢力“一鍵清零” 寶馬G22 430i雙門轎跑車換了尾標的雙門版3系,操控自然更便捷 邁凱倫推出了邁凱倫Senna GTR概念車,塞納GTR萬寶路涂裝 東風日產(chǎn)NX8,800V高壓平臺+寧德時代5C超充、再疊加激光雷達智駕 在“快消”造車的時代,享受一場廣汽本田躁夢節(jié)的慢事件 最新坦克300插混版 換了新電池 還有什么不同 新能源“爛尾車”的走紅,是一場由現(xiàn)實倒逼出的消費智慧,也是一面映照產(chǎn)業(yè)病灶的鏡子 首創(chuàng)“五恒”座艙|別克至境世家上市,官方指導(dǎo)價43.99萬元起 大眾帕薩特ePro申報圖!插混動力,配30kWh電池,設(shè)計更年輕了
亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区
99精品欧美一区二区三区| 国产精品一区二区在线| 久久久久久精| 老牛影视一区二区三区| 欧美精品一区二区三区很污很色的 | 在线日韩视频| 亚洲免费精品| 欧美一区二区三区的| 久久这里有精品15一区二区三区| 欧美久久一区| 国产小视频国产精品| 亚洲国产欧美一区| 亚洲一区二区免费| 美女日韩欧美| 国产精品网站在线观看| 亚洲电影av在线| 亚洲永久免费av| 久久九九国产| 欧美午夜不卡| 在线观看视频日韩| 亚洲午夜精品视频| 蜜桃久久av| 国产精品腿扒开做爽爽爽挤奶网站 | 国产日韩欧美一区在线| 91久久在线观看| 午夜亚洲性色福利视频| 欧美激情国产日韩精品一区18| 国产精品女人久久久久久| 亚洲丰满少妇videoshd| 亚洲欧洲99久久| 欧美日韩免费高清| 激情成人综合| 一区二区三区欧美在线观看| 久久一日本道色综合久久| 国产精品麻豆欧美日韩ww| 亚洲欧洲在线看| 久久精品视频亚洲| 国产精品免费福利| 日韩午夜在线播放| 玖玖综合伊人| 国产日韩欧美a| 亚洲午夜极品| 欧美激情1区2区3区| 亚洲第一页自拍| 国产欧美日韩在线观看| 欧美日韩在线播放三区四区| 亚洲视频1区| 久久久久久久999| 国产精品毛片大码女人| 亚洲欧洲一区二区在线观看| 欧美在线视频在线播放完整版免费观看 | 亚洲人成在线播放| 久久男人资源视频| 国产欧美一二三区| 亚洲综合精品四区| 欧美性大战久久久久久久蜜臀| 亚洲国产日日夜夜| 久久综合激情| 黄色成人在线网址| 欧美一区二区三区四区夜夜大片| 国产精品成人一区二区网站软件| 亚洲人成人99网站| 欧美大成色www永久网站婷| 国产一区再线| 久久福利影视| 国产网站欧美日韩免费精品在线观看 | 精品不卡在线| 欧美制服丝袜| 国产区二精品视| 午夜久久影院| 国产欧美69| 欧美一级淫片aaaaaaa视频| 国产精品一二一区| 午夜精品视频在线观看| 国产精品捆绑调教| 亚洲综合精品一区二区| 国产精品国产自产拍高清av| 中文久久精品| 国产精品久久久久aaaa| 亚洲一区二区三区免费在线观看| 欧美四级在线| 亚洲女同精品视频| 国产精品一区二区a| 午夜精彩视频在线观看不卡| 国产精品自在欧美一区| 欧美在线影院| 影音先锋日韩有码| 欧美 日韩 国产 一区| 亚洲黄色在线看| 欧美人成在线视频| 中文精品视频一区二区在线观看| 欧美无乱码久久久免费午夜一区 | 免费的成人av| 亚洲精品在线三区| 欧美视频在线观看一区| 亚洲免费伊人电影在线观看av| 国产精品一二三| 久久av红桃一区二区小说| 激情懂色av一区av二区av| 免费成人在线观看视频| 亚洲精品综合| 国产精品久久久久免费a∨大胸| 欧美一区二区福利在线| 影音先锋亚洲精品| 欧美久久在线| 亚洲欧美日韩综合国产aⅴ| 国产视频在线观看一区二区| 久久综合国产精品| 日韩视频专区| 国产伦精品一区二区| 久久经典综合| 亚洲精品日韩在线| 国产精品免费网站| 久久久久久9| 亚洲精品视频一区| 国产精品入口麻豆原神| 久久男人av资源网站| 亚洲靠逼com| 国产欧美日韩在线播放| 六月丁香综合| 亚洲天堂网站在线观看视频| 国产自产精品| 欧美日韩另类丝袜其他| 欧美在线观看视频一区二区| 亚洲国产99| 欧美日韩色综合| 久久久国产精彩视频美女艺术照福利 | 精品动漫3d一区二区三区| 欧美国产日韩在线观看| 亚洲字幕在线观看| 亚洲国产成人精品女人久久久 | 亚洲永久视频| 激情五月综合色婷婷一区二区| 欧美激情成人在线视频| 亚洲欧美日韩国产中文在线| 亚洲成人中文| 国产精品美女久久久免费| 麻豆国产精品777777在线| 亚洲先锋成人| 亚洲激情啪啪| 国产亚洲精品久久久久婷婷瑜伽| 欧美激情小视频| 午夜精品网站| 亚洲精选成人| 精品91在线| 国产精品美女久久久久av超清| 美女尤物久久精品| 午夜视频在线观看一区二区三区 | 中日韩在线视频| 伊人久久大香线蕉av超碰演员| 国产精品a久久久久| 嫩草影视亚洲| 欧美在线一区二区| 亚洲天堂av高清| 亚洲精品国产欧美| 黄色精品在线看| 国产精品日韩久久久久| 欧美人与性禽动交情品| 久久午夜视频| 久久av最新网址| 亚洲自拍偷拍视频| 一区二区成人精品| 亚洲人成高清| 玉米视频成人免费看| 国产日产亚洲精品| 国产精品高潮呻吟久久av黑人| 欧美黄污视频| 乱码第一页成人| 欧美中文字幕在线观看| 亚洲砖区区免费| 9久草视频在线视频精品| 在线观看日产精品| 国产一区二区三区四区三区四| 国产精品电影在线观看| 欧美日韩高清区| 欧美激情1区| 欧美高清在线| 免费不卡中文字幕视频| 久久久久久久欧美精品| 久久av红桃一区二区小说| 午夜国产欧美理论在线播放| 亚洲四色影视在线观看| av不卡免费看| 亚洲乱码久久| 亚洲美女毛片| 日韩午夜激情av| 亚洲另类一区二区| 亚洲精品视频中文字幕| 亚洲欧洲日产国产综合网| 亚洲国产岛国毛片在线| 1000部国产精品成人观看 | 午夜精品美女自拍福到在线 | 亚洲欧美激情在线视频| 亚洲一区二区三区乱码aⅴ蜜桃女| 日韩亚洲欧美一区| 日韩亚洲欧美中文三级| 99av国产精品欲麻豆| 99国产精品久久久久久久久久| 亚洲精品国产精品国自产观看| 亚洲黄色成人| 亚洲精品一区二区三区福利| 亚洲精品乱码久久久久久久久| 亚洲人午夜精品免费| 亚洲免费久久|