Measured folkloreMeraný folklór

When can an AI trust its own confidence? Only frontierKedy môže AI veriť vlastnej istote? Len na frontieri

June 28, 20269 min readagent reasoning · calibration · selective prediction · abstention · LLM confidence · severe-testeduvažovanie agentov · kalibrácia · selektívna predikcia · abstinencia · istota LLM · prísne testované
The takeawayZhrnutie

Should an agent use its own confidence to decide when to answer vs abstain? We measured it on a contamination-free task. Whether confidence predicts correctness (AUROC) is a coin-flip (0.50) for weak and mid models but 0.73-0.90 for frontier models. Self-confidence-based abstention is weak-model-false, frontier-true. Runnable probe + raw data included.Má agent použiť vlastnú istotu na rozhodnutie kedy odpovedať vs zdržať sa? Odmerali sme to na úlohe odolnej voči kontaminácii. Či istota predpovedá správnosť (AUROC) je hod mincou (0,50) pri slabých a stredných modeloch, ale 0,73-0,90 pri frontier modeloch. Abstinencia podľa vlastnej istoty je pre slabé modely nepravda, pre frontier pravda. Spustiteľný probe + surové dáta priložené.

The short version. A common assumption in agent design is that a model's own confidence tells it when to act and when to hold back — answer if confident, abstain if not. We tested whether that works, on a contamination-free task. On a contamination-free arithmetic task the result is a capability gradient: a weak or mid model's confidence is statistically useless for telling when it is wrong (AUROC ~0.50, a coin flip), while a frontier model's confidence genuinely tracks correctness (AUROC ~0.90). A harder factual benchmark (SimpleQA, below) refines this: raw discrimination can switch on at mid-size, but only a frontier model knows enough for confidence-gating to buy useful accuracy — so trusting an agent's self-confidence to abstain is, operationally, weak-false and frontier-true. The probe and the raw per-item data are public, so every number here is re-checkable.

The setup

We want one question: does higher confidence actually mean a higher chance of being right? The clean way to measure it is AUROC of confidence against correctness — the probability that a correct answer was given more confidence than an incorrect one. 0.5 means confidence carries no signal (you cannot threshold it to abstain); 1.0 means it perfectly separates right from wrong.

The task is multi-step integer arithmetic of escalating difficulty — generated from random numbers, so it is contamination-free (no model has memorized the answers) and graded exactly. Each item: the model returns an answer and a confidence (0-100, its own probability of being correct).

One methodology point that matters for trusting the result: AUROC is computed only on items where the model emitted a real, parsed confidence — parse-failures are excluded, not defaulted. (An earlier version of this analysis defaulted unparsed answers to 0.5-confidence-and-wrong, which can inflate AUROC by separating parsed from unparsed instead of right from wrong. We caught that and fixed it; the numbers below are the clean version.)

The result: discrimination is a capability gradient

modeltierclean errorsoverconfidence (conf − acc)AUROC (conf → correct)
qwen2.5:7bweak51+0.720.50
qwen3-coder:30bmid66+0.840.54
glm-5.2frontier16+0.190.73 *
claude-sonnet-4-6frontier23+0.020.903

The weak and mid models emit maxed-out confidence (~1.0) on almost everything, including answers that are wrong — so their confidence cannot separate right from wrong (AUROC ≈ 0.5) and they are massively overconfident (+0.7 to +0.8). The frontier model is near-perfectly calibrated (overconfidence +0.02) and its confidence strongly tracks correctness (AUROC 0.90): in this run it assigned about 2% confidence to most of its wrong answers and about 77% to its right ones. It largely knows when it is about to be wrong; the smaller models do not. A second frontier model, glm-5.2, also discriminates (AUROC 0.73) but emitted no parseable confidence on 34% of items, so we treat Claude — which gave a real confidence every time — as the clean anchor; both clear the weak/mid coin-flip line, which is the point.

0.50 — coin flip (useless)qwen2.5:7b (weak)0.50qwen3-coder:30b (mid)0.54glm-5.2 (frontier)*0.73claude-sonnet-4-6 (frontier)0.903
Discrimination is a capability gradient. AUROC of self-confidence predicting correctness, on the clean set (real parsed confidences only): weak and mid models sit on the 0.50 coin-flip line — their confidence is useless for abstention — while both frontier models clear it (glm-5.2 0.73, Claude 0.90). *glm-5.2 failed to emit a parseable confidence on 34% of items, so its score is on a selected subset; Claude emitted one every time (cleanest anchor).

What it means in practice (risk–coverage)

The same result without the jargon: if a model answers only the questions it is most confident about, does its accuracy go up? For a weak model, no — selecting its most-confident half is no better than answering everything. For a frontier model, accuracy climbs sharply, and you can safely answer a large share at high accuracy:

modelanswer allmost-confident halfmost-confident quartershare answerable at ≥90% accuracy
qwen2.5:7b (weak)28%28%28%~1%
qwen3-coder:30b (mid)15%15%15%~0%
glm-5.2 (frontier)80%93%100%63%
claude-sonnet-4-6 (frontier)52%79%92%44%

This is the operational version of the AUROC table above: AUROC summarizes whether confidence ranks correctness; risk–coverage shows what that buys you — how much you can answer, at what accuracy, if you gate on the model's own confidence. Below the frontier, gating buys you nothing; at the frontier it buys a lot.

A harder test: SimpleQA (n=150)

Arithmetic is contamination-free but computable — a model can re-derive the answer, which may exaggerate how cleanly confidence tracks correctness. So we ran the same probe on SimpleQA (OpenAI's deliberately-hard short-answer factual benchmark), where models err on most items and the numbers are robust (the small-model AUROC no longer rests on a handful of correct cases). Verbalized confidence, plus a multi-sample signal (sample N=5, use answer-agreement), at n=150:

modelbase accverbalized AUROCmulti-sample AUROCmost-confident quarter accanswerable @ ≥90%
qwen2.5:7b (weak)5%0.47 (≈ chance)0.576%0%
qwen3-coder:30b (mid)8%0.740.6321%0%
glm-5.2 (frontier)23%0.740.7162%5%

This refines the arithmetic headline in two honest ways. First, verbalized discrimination is not a clean weak→mid→frontier gradient: the 7B model is still at chance (0.47), but the 30B model matches the frontier on raw AUROC (both 0.74). Discrimination switches on above ~7B and is itself task-dependent (the same 30B scored only 0.54 on arithmetic). Second, the robust capability gradient is operational: gating to the most-confident quarter lifts accuracy 5% → 21% → 62% across the tiers, and only the frontier can answer any share at ≥90% accuracy. The mid model discriminates yet still cannot gate to useful accuracy, because it does not know enough — discrimination is not the same as usable abstention. That is the case for an external retrieval / grounding layer even on a model whose confidence ranks correctly.

A note on the multi-sample signal: on arithmetic, sampling-consistency recovered discrimination strongly (AUROC ~0.97 even on small models). On SimpleQA it does not (0.57–0.71) — re-sampling helps when a model can re-derive an answer, but not when it simply does not know the fact. So multi-sample confidence is task-dependent, not a universal small-model fix.

Why it matters: the cost of acting on bad confidence

Put a price on it. Reward a correct answer +1, penalize a wrong one −c, score 0 for abstaining. The textbook-rational rule is to answer when confidence exceeds c/(1+c). Applied to a weak model's own (non-discriminative) confidence, that rule loses heavily — under any real penalty the only utility-positive policy is to abstain on everything, because the confidence carries no information about which answers to keep. Applied to the frontier model's confidence, answering is utility-positive and lands close to the best achievable.

The practical reading: the value of an external verification / grounding gate is inversely proportional to model capability. A small or local agent cannot use its own confidence to decide what to trust — it needs an external check (corroboration across independent sources, a separate verifier, or retrieval against ground truth). A frontier agent can lean on its own confidence far more. This is the design principle behind our memory core (mnemo) and benchmark (RAMR): the corroboration gate earns its keep exactly where self-confidence does not.

Auditable

The probe is one file and the result JSONs include the raw per-item rows (expression, answer, gold, confidence, correct), so you can re-run it on your own models or re-check every number above: mnemo/probes/overconfidence_tax (MIT).

Honest prior art

That LLM calibration tends to improve with scale is known (the calibration and selective-prediction literature). What we add is narrow and measured: the discrimination of self-confidence for abstention (AUROC), as a capability gradient, on a single contamination-free task, plus the concrete implication — when an external grounding gate is necessary versus redundant. We are not claiming a new calibration method; we are measuring where the folklore ("let the agent's confidence decide") holds.

Honest limits

FAQ

Can an LLM agent trust its own confidence to decide when to abstain? Only if it is a frontier model. We measured that the link between confidence and correctness (AUROC) is ~0.5 — a coin flip — for a weak model (and for a mid model on arithmetic); on a harder factual benchmark a mid model can discriminate (0.74) yet still not reach useful gated accuracy — only the frontier does (glm-5.2, Claude). Below the frontier, single-shot self-confidence is not a usable abstention signal — though multi-sample consistency (sampling the model several times) can recover one, at extra cost.

What is AUROC of confidence here? The probability that a correct answer received higher confidence than an incorrect one. 0.5 = confidence is useless for telling right from wrong; 1.0 = perfect separation. It is the right metric for selective prediction / abstention, distinct from calibration (whether "80% confident" is right 80% of the time).

Are LLMs overconfident? The weak and mid models were massively so (confidence +0.72 and +0.84 above their accuracy); the frontier model was near-perfectly calibrated (+0.02). But overconfidence (a calibration gap) matters less than discrimination (AUROC) for the abstain decision — a model can be overconfident yet still rank its right answers above its wrong ones.

What should a weak/local agent do instead? Not rely on self-confidence. Use an external gate — corroboration across independent sources, a separate verifier, or retrieval against ground truth — which is exactly where it pays off most.

Related research

Krátka verzia. Bežný predpoklad pri návrhu agentov je, že vlastná istota modelu mu povie, kedy konať a kedy sa zdržať — odpovedz ak si istý, zdrž sa ak nie. Otestovali sme, či to funguje, na úlohe odolnej voči kontaminácii. Na aritmetickej úlohe odolnej voči kontaminácii je výsledok gradient schopnosti: istota slabého či stredného modelu je štatisticky nepoužiteľná na rozpoznanie, kedy sa mýli (AUROC ~0,50, hod mincou), kým istota frontier modelu reálne sleduje správnosť (AUROC ~0,90). Ťažší faktický benchmark (SimpleQA, nižšie) to spresňuje: surová diskriminácia sa môže zapnúť už pri strednej veľkosti, ale len frontier model vie dosť na to, aby prahovanie na istotu prinieslo použiteľnú presnosť — takže dôverovať vlastnej istote agenta pri abstinencii je, operačne, pre slabé nepravda a pre frontier pravda. Probe aj surové dáta sú verejné, takže každé číslo sa dá overiť.

Nastavenie

Chceme jednu otázku: znamená vyššia istota reálne vyššiu šancu na správnosť? Čistý spôsob merania je AUROC istoty voči správnosti — pravdepodobnosť, že správna odpoveď dostala vyššiu istotu než nesprávna. 0,5 znamená, že istota nenesie žiadny signál (nedá sa prahovať na abstinenciu); 1,0 znamená dokonalé oddelenie správneho od nesprávneho.

Úloha je viackrokový celočíselný výpočet stúpajúcej obťažnosti — generovaný z náhodných čísel, takže je odolný voči kontaminácii (žiadny model si odpovede nezapamätal) a hodnotený presne. Každá položka: model vráti odpoveď a istotu (0–100, jeho vlastnú pravdepodobnosť správnosti).

Jeden metodologický bod dôležitý pre dôveru vo výsledok: AUROC sa počíta len na položkách, kde model vydal reálnu, sparsovanú istotu — parse-zlyhania sú vylúčené, nie defaultnuté. (Skoršia verzia analýzy defaultovala nesparsované odpovede na istotu 0,5-a-zle, čo môže nafúknuť AUROC tým, že oddeľuje sparsované od nesparsovaných namiesto správne od nesprávneho. Zachytili sme to a opravili; čísla nižšie sú čistá verzia.)

Výsledok: diskriminácia je gradient schopnosti

modeltierčisté chybynadmerná istota (conf − acc)AUROC (istota → správnosť)
qwen2.5:7bslabý51+0,720,50
qwen3-coder:30bstredný66+0,840,54
glm-5.2frontier16+0,190,73 *
claude-sonnet-4-6frontier23+0,020,903

Slabý a stredný model vydávajú maxnutú istotu (~1,0) takmer na všetkom, vrátane nesprávnych odpovedí — takže ich istota nedokáže oddeliť správne od nesprávneho (AUROC ≈ 0,5) a sú extrémne nadmerne sebaistí (+0,7 až +0,8). Frontier model je takmer dokonale kalibrovaný (nadmerná istota +0,02) a jeho istota silno sleduje správnosť (AUROC 0,90): v tomto behu dal asi 2 % istoty na väčšinu svojich zlých odpovedí a asi 77 % na správne. Zväčša vie, kedy sa chystá pomýliť; menšie modely nie. Druhý frontier model, glm-5.2, tiež diskriminuje (AUROC 0,73), ale na 34 % položiek nevydal sparsovateľnú istotu, takže za čistú kotvu berieme Claude — ktorý vydal reálnu istotu vždy; oba prekonávajú čiaru hodu mincou slabých/stredných, o čo ide.

0.50 — coin flip (useless)qwen2.5:7b (weak)0.50qwen3-coder:30b (mid)0.54glm-5.2 (frontier)*0.73claude-sonnet-4-6 (frontier)0.903
Diskriminácia je gradient schopnosti. AUROC vlastnej istoty predpovedajúcej správnosť, na čistej množine (len reálne sparsované istoty): slabý a stredný model sedia na čiare 0,50 — ich istota je nepoužiteľná na abstinenciu — kým oba frontier modely ju prekonajú (glm-5.2 0,73, Claude 0,90). *glm-5.2 nevydal sparsovateľnú istotu na 34 % položiek, takže jeho skóre je na vybranej podmnožine; Claude vydal vždy (najčistejšia kotva).

Čo to znamená v praxi (risk–coverage)

Ten istý výsledok bez žargónu: ak model odpovie len na otázky, kde si je najistejší, stúpne mu presnosť? Pri slabom modeli nie — vybrať jeho najistejšiu polovicu nie je o nič lepšie než odpovedať na všetko. Pri frontier modeli presnosť prudko stúpa a vieš bezpečne odpovedať na veľkú časť pri vysokej presnosti:

modelodpovedz na všetkonajistejšia polovicanajistejšia štvrtinapodiel pri ≥90% presnosti
qwen2.5:7b (slabý)28%28%28%~1%
qwen3-coder:30b (stredný)15%15%15%~0%
glm-5.2 (frontier)80%93%100%63%
claude-sonnet-4-6 (frontier)52%79%92%44%

Toto je operačná verzia AUROC tabuľky vyššie: AUROC zhrňuje, či istota radí správnosť; risk–coverage ukazuje, čo tým získaš — koľko vieš odpovedať a pri akej presnosti, ak prahuješ na vlastnú istotu modelu. Pod frontierom prahovanie neprinesie nič; na frontieri veľa.

Ťažší test: SimpleQA (n=150)

Aritmetika je odolná voči kontaminácii, ale je vypočítateľná — model si odpoveď vie odvodiť, čo môže zveličovať, ako čisto istota sleduje správnosť. Tak sme ten istý probe spustili na SimpleQA (zámerne ťažký krátko-odpoveďový faktický benchmark od OpenAI), kde sa modely mýlia na väčšine položiek a čísla sú robustné (AUROC malých modelov už nestojí na hŕstke správnych prípadov). Verbalizovaná istota plus multi-sample signál (vzorkuj N=5, zhoda odpovedí), pri n=150:

modelbázová presnosťverbalized AUROCmulti-sample AUROCnajistejšia štvrtina presn.podiel pri ≥90%
qwen2.5:7b (slabý)5%0,47 (≈ náhoda)0,576%0%
qwen3-coder:30b (stredný)8%0,740,6321%0%
glm-5.2 (frontier)23%0,740,7162%5%

Toto spresňuje aritmetický headline dvoma poctivými spôsobmi. Po prvé, verbalizovaná diskriminácia nie je čistý gradient slabý→stredný→frontier: 7B model je stále na úrovni náhody (0,47), ale 30B model dorovnáva frontier v surovom AUROC (oba 0,74). Diskriminácia sa zapne nad ~7B a je sama task-závislá (ten istý 30B mal na aritmetike len 0,54). Po druhé, robustný gradient schopnosti je operačný: prahovanie na najistejšiu štvrtinu zdvihne presnosť 5% → 21% → 62% naprieč tiermi a len frontier vie odpovedať na nejaký podiel pri ≥90% presnosti. Stredný model diskriminuje, no aj tak nevie prahovať na použiteľnú presnosť, lebo nevie dosť — diskriminácia nie je to isté čo použiteľná abstinencia. To je argument pre externý retrieval / grounding aj na modeli, ktorého istota správne radí.

Pozn. k multi-sample signálu: na aritmetike sampling-konzistencia silno obnovila diskrimináciu (AUROC ~0,97 aj na malých modeloch). Na SimpleQA nie (0,57–0,71) — opätovné vzorkovanie pomáha, keď model vie odpoveď odvodiť, ale nie keď fakt jednoducho nepozná. Takže multi-sample istota je task-závislá, nie univerzálna barlička pre malé modely.

Prečo na tom záleží: cena konania podľa zlej istoty

Daj tomu cenu. Odmeň správnu odpoveď +1, potrestaj nesprávnu −c, za zdržanie 0. Učebnicovo-racionálne pravidlo je odpovedať, keď istota presiahne c/(1+c). Aplikované na vlastnú (nediskriminatívnu) istotu slabého modelu toto pravidlo silno stráca — pri akomkoľvek reálnom treste je jediná utility-pozitívna politika zdržať sa všetkého, lebo istota nenesie informáciu o tom, ktoré odpovede si nechať. Aplikované na istotu frontier modelu je odpovedanie utility-pozitívne a blíži sa najlepšiemu dosiahnuteľnému.

Praktické čítanie: hodnota externej verifikačnej / grounding brány je nepriamo úmerná schopnosti modelu. Malý alebo lokálny agent nemôže použiť vlastnú istotu na rozhodnutie, čomu veriť — potrebuje externú kontrolu (korroborácia naprieč nezávislými zdrojmi, samostatný verifikátor, alebo retrieval voči pravde). Frontier agent sa môže oprieť o vlastnú istotu oveľa viac. To je princíp za naším pamäťovým jadrom (mnemo) a benchmarkom (RAMR): korroboračná brána sa vypláca presne tam, kde vlastná istota nie.

Auditovateľné

Probe je jeden súbor a result JSONy obsahujú surové per-item riadky (výraz, odpoveď, správna hodnota, istota, správnosť), takže si to vieš spustiť na vlastných modeloch alebo prerátať každé číslo vyššie: mnemo/probes/overconfidence_tax (MIT).

Čestná prior-art

Že kalibrácia LLM má tendenciu rásť so škálou, je známe (literatúra o kalibrácii a selektívnej predikcii). Čo pridávame, je úzke a merané: diskriminácia vlastnej istoty pre abstinenciu (AUROC) ako gradient schopnosti, na jednej úlohe odolnej voči kontaminácii, plus konkrétny dôsledok — kedy je externá grounding brána nutná a kedy nadbytočná. Netvrdíme novú metódu kalibrácie; meriame, kde folklór („nech rozhodne istota agenta") platí.

Čestné limity

FAQ

Môže LLM agent veriť vlastnej istote pri rozhodnutí, kedy sa zdržať? Len ak je to frontier model. Odmerali sme, že väzba medzi istotou a správnosťou (AUROC) je ~0,5 — hod mincou — pri slabom (a strednom modeli na aritmetike); na ťažšom faktickom benchmarku stredný model dokáže diskriminovať (0,74), no aj tak nedosiahne použiteľnú prahovanú presnosť — to vie len frontier (glm-5.2, Claude). Pod frontierom nie je jednorázová vlastná istota použiteľný signál na abstinenciu — hoci multi-sample konzistencia (viacnásobné vzorkovanie modelu) ju vie obnoviť, za cenu navyše.

Čo je tu AUROC istoty? Pravdepodobnosť, že správna odpoveď dostala vyššiu istotu než nesprávna. 0,5 = istota je nepoužiteľná na rozlíšenie správneho od nesprávneho; 1,0 = dokonalé oddelenie. Je to správna metrika pre selektívnu predikciu / abstinenciu, odlišná od kalibrácie (či „80 % istý" má pravdu v 80 % prípadov).

Sú LLM nadmerne sebaistí? Slabý a stredný model extrémne (istota +0,72 a +0,84 nad ich presnosťou); frontier model bol takmer dokonale kalibrovaný (+0,02). Ale nadmerná istota (medzera kalibrácie) je pre rozhodnutie o abstinencii menej dôležitá než diskriminácia (AUROC) — model môže byť nadmerne sebaistý a predsa radiť svoje správne odpovede nad nesprávne.

Čo má robiť slabý/lokálny agent namiesto toho? Nespoliehať sa na vlastnú istotu. Použiť externú bránu — korroboráciu naprieč nezávislými zdrojmi, samostatný verifikátor, alebo retrieval voči pravde — čo je presne tam, kde sa to najviac vyplatí.

Súvisiaci výskum

← More writing from Agora← Ďalšie texty od Agory