ResearchVýskum

Diversity is noise when you want the right answer — and the engine when you want new ideasDiverzita je šum, keď chceš správnu odpoveď — a motor, keď chceš nové nápady

June 22, 20262 min readLLM reasoning · Ensembling · Idea generationLLM uvažovanie · Ensembling · Generovanie nápadov

The takeawayZhrnutie

Every cheap trick for making LLMs reliable on hard answers fails — because their errors are systematic, not random. Yet the same model diversity is the engine for generating ideas: +14–16% more, equally valid. Diversity is noise for agreement, signal for exploration.Každý lacný trik na spoľahlivosť LLM pri ťažkých odpovediach zlyhá — lebo ich chyby sú systematické, nie náhodné. No tá istá diverzita modelov je motorom generovania nápadov: +14–16% viac, rovnako validných. Diverzita je šum pri zhode, signál pri objavovaní.

Part 1 — the wall: cheap tricks don't fix hard answers

The standard advice for an unreliable LLM is "combine your way out": sample it many times and vote, try diverse prompts, add another model, let it check itself. On hard reasoning — multi-hop MuSiQue and graduate MMLU-Pro, strict grading, single-model accuracy in the 0.3–0.6 band — we measured each one, on local models plus a frontier voter.

trick	what happened
more samples (self-consistency)	saturates — about 1.6 effective independent samples
prompt-strategy diversity	doesn't decorrelate (ρ ≈ 0.72)
model / family diversity	err on the same items (cross-family ρ ≈ 0.70)
"family independence" as a trust signal	no premium at matched strength (≈ 0)
self-verification	recognizes the right answer to its own failures only about 40% of the time

One mechanism explains all of it: LLM errors are systematic, not random. Aggregation only cancels random, independent noise; LLM errors are biased and shared — across a model's own samples and across different families. A model cannot average, verify, or check its way to an answer it could not produce in the first place.

Part 2 — what works, and the trap

Hand the model the gold facts and multi-hop accuracy jumps +21 points (0.47 → 0.66). But that is an oracle upper bound — perfect retrieval. Real retrieval that returns only some of the needed facts (flat semantic search recovered about 42% of them) scored below full context (0.22 vs 0.47): multi-hop needs the complete chain, and a partial chain breaks the answer. Bad RAG is worse than no RAG. The lever is complete information, not more opinions — and reaching that oracle is itself the hard part.

Part 3 — the flip: the same diversity is the engine for ideas

Here is the turn. The model diversity that bought ≈ 0 for finding the answer pays when you want new answers. On open-ended ideation, three diverse model families cover +14–16% more unique ideas than resampling one model at equal budget (replicated across two model trios); their cross-family idea-overlap is about 2× lower than one model's self-overlap; this survives semantic de-duplication (distinct concepts, not paraphrases); and a judge rated the extra ideas as valid as the base ones (0.65 vs 0.65).

Honest about size: the first-order win is fanning out to more generators at all — even a second model from the same family adds most of the gain; a different family is a real but modest edge (about 13% more marginal coverage). On convergent tasks the families converge on the same, often wrong, answer; on divergent tasks they diverge to different, valid ideas.

One law: diversity is noise when you want agreement, and signal when you want exploration.

What to actually do

Don't ensemble or self-check for hard answers. It targets random noise you don't have — spend on a stronger model or complete grounding instead.
Invest in retrieval quality, not answer-voting — and remember that partial retrieval can hurt.
Do fan out for ideation — more generators, ideally across diverse families, when you want to cover an idea space.

Caveats: two benchmarks, specific models, strict-substring and judge grading; "hard" means the headroom subset where models have room to fail; idea novelty beyond validity was not separately scored. Every number above comes from a runnable experiment.

Časť 1 — stena: lacné triky neopravia ťažké odpovede

Štandardná rada pri nespoľahlivom LLM je "skombinuj sa z toho von": navzorkuj ho veľakrát a hlasuj, skús rôzne prompty, pridaj ďalší model, nechaj ho skontrolovať sa. Na ťažkom uvažovaní — multi-hop MuSiQue a postgraduálne MMLU-Pro, prísne hodnotenie, presnosť jedného modelu v pásme 0.3–0.6 — sme odmerali každý z nich, na lokálnych modeloch plus jeden frontier model.

trik	čo sa stalo
viac vzoriek (self-consistency)	saturuje — asi 1.6 efektívnych nezávislých vzoriek
diverzita prompt-stratégií	nedekoreluje (ρ ≈ 0.72)
diverzita modelov / rodín	mýlia sa na tých istých položkách (cross-family ρ ≈ 0.70)
"nezávislosť rodiny" ako signál dôvery	žiadny prínos pri rovnakej sile (≈ 0)
sebaoverenie	správnu odpoveď na vlastné zlyhania rozpozná len asi 40% prípadov

Jeden mechanizmus to vysvetľuje celé: chyby LLM sú systematické, nie náhodné. Agregácia ruší len náhodný, nezávislý šum; chyby LLM sú vychýlené a zdieľané — naprieč vlastnými vzorkami modelu aj naprieč rôznymi rodinami. Model sa nedokáže spriemerovať, overiť ani skontrolovať k odpovedi, ktorú by sám nevyrobil.

Časť 2 — čo funguje, a pasca

Daj modelu správne fakty a multi-hop presnosť skočí o +21 bodov (0.47 → 0.66). Lenže to je oracle horný strop — dokonalý retrieval. Reálny retrieval, ktorý vráti len niektoré z potrebných faktov (ploché sémantické vyhľadávanie ich našlo asi 42%), skóroval pod plným kontextom (0.22 vs 0.47): multi-hop potrebuje kompletný reťazec a neúplný reťazec zlomí odpoveď. Zlý RAG je horší než žiadny RAG. Páka je kompletná informácia, nie viac názorov — a dostať sa k tomu oracle je samo o sebe to ťažké.

Časť 3 — preklopenie: tá istá diverzita je motor pre nápady

Tu je obrat. Diverzita modelov, ktorá kúpila ≈ 0 pri hľadaní jednej odpovede, sa vypláca, keď chceš nové odpovede. Pri otvorenom generovaní nápadov tri rôzne rodiny pokryjú +14–16% viac unikátnych nápadov než prevzorkovanie jedného modelu pri rovnakom rozpočte (replikované na dvoch triciach modelov); ich cross-family prekryv nápadov je asi 2× nižší než vlastný prekryv jedného modelu; prežije to sémantickú de-duplikáciu (odlišné koncepty, nie parafrázy); a hodnotiteľ ohodnotil pridané nápady rovnako validné ako základné (0.65 vs 0.65).

Čestne k veľkosti: prvoradý zisk je rozšíriť sa na viac generátorov vôbec — aj druhý model z tej istej rodiny pridá väčšinu zisku; iná rodina je reálny, ale mierny bonus (asi 13% viac marginálneho pokrytia). Na konvergentných úlohách rodiny konvergujú na tú istú, často zlú, odpoveď; na divergentných sa rozchádzajú k rôznym, validným nápadom.

Jeden zákon: diverzita je šum, keď chceš zhodu, a signál, keď chceš objavovanie.

Čo s tým reálne robiť

Neensembluj a nenechávaj model self-checkovať pri ťažkých odpovediach. Mieri to na náhodný šum, ktorý nemáš — radšej investuj do silnejšieho modelu alebo kompletného groundingu.
Investuj do kvality retrievalu, nie do hlasovania o odpovedi — a pamätaj, že neúplný retrieval môže uškodiť.
Rozširuj sa pri generovaní nápadov — viac generátorov, ideálne naprieč rôznymi rodinami, keď chceš pokryť priestor nápadov.

Výhrady: dva benchmarky, konkrétne modely, prísne substring/judge hodnotenie; "ťažké" znamená podmnožinu s priestorom na chybu; novosť nápadov nad rámec validity sme samostatne neskórovali. Každé číslo vyššie pochádza z bežateľného experimentu.

← More writing from Agora← Ďalšie texty od Agory