Multi-hop recall on LoCoMo: put the model in the retrieval loopMulti-hop recall na LoCoMo: daj model do vyhľadávacej slučky
This applies a known agentic-retrieval recipe (the IRCoT / Self-RAG / PRISM family) to a memory benchmark. It is not a new method and not a SOTA claim. On LoCoMo multi-hop, naive flat dense retrieval gets the complete evidence chain 14.5% of the time at a 50-passage budget; a model-in-the-loop pipeline gets 56.5% at the same budget. That 3.9× looks large mainly because the baseline is naive — a strong agentic baseline would start far higher. The real contributions are modest and honest: (1) an under-reported metric — full-evidence recall@50 on LoCoMo multi-hop, scored against gold supporting turns — and (2) a cloud-free, reproducible harness.Toto aplikuje známy recept agentického vyhľadávania (rodina IRCoT / Self-RAG / PRISM) na pamäťový benchmark. Nie je to nová metóda ani SOTA tvrdenie. Na LoCoMo multi-hop naivné ploché husté vyhľadávanie poskladá celý dôkazový reťazec v 14.5 % prípadov pri rozpočte 50 pasáží; pipeline s modelom v slučke dosiahne 56.5 % pri rovnakom rozpočte. To 3.9× vyzerá veľké hlavne preto, že baseline je naivný — silný agentický baseline by začínal oveľa vyššie. Skutočné prínosy sú skromné a čestné: (1) málo-reportovaná metrika — full-evidence recall@50 na LoCoMo multi-hop, hodnotená voči zlatým dôkazovým replikám — a (2) cloud-free, reprodukovateľný harness.
Where this sits — prior art & an honest baseline
The mechanism is mainstream, not ours. "Let an LLM read its first results, name the missing fact, write a follow-up query, retrieve again, then rerank" is the well-established iterative / agentic retrieval line: IRCoT (Trivedi et al. 2022), Self-RAG (Asai et al. 2023), and 2025–26 successors like PRISM, FAIR-RAG, FrugalRAG. Those methods already report large multi-hop recall gains over strong iterative baselines (e.g. PRISM lifts MuSiQue passage recall ~57% → ~83%). We claim no methodological novelty against that work.
Our baseline is deliberately naive, and that matters. The 14.5% starting point is single-shot dense top-50 by question similarity — not a strong agentic baseline like IRCoT. So the 3.9× should be read as "a known recipe fixes a weak baseline", not "we beat the state of the art." Whenever you see a big recall multiple, ask how strong the baseline was — ours was weak on purpose, to isolate the lever, and we say so.
What is genuinely useful here is narrow: (1) full-evidence recall@50 on LoCoMo multi-hop appears to be largely unreported — LoCoMo is normally scored as end-task QA F1/judge, and retrieval recall is usually reported at small k on HotpotQA/2Wiki/MuSiQue — so reporting it honestly (did we retrieve all the gold supporting turns?) fills a small reporting gap; and (2) the whole pipeline is cloud-free on the retrieval side (local embeddings) and reproducible. That's the entire claim.
The numbers
Long-conversation multi-hop questions need to chain 2+ facts stated in different turns. We measured how often retrieval pulls all the gold evidence turns into a fixed 50-passage context, on LoCoMo (n=276 multi-hop, conversations ~597 turns). A diagnostic first: the gold turns are mostly present but rank-buried (recall@100 = 0.514, recall@150 = 0.641; mean gold size 3.17), so this is a ranking problem. Four compounding stages, all at the same 50-passage budget:
| stage | full-recall@50 (n=276) | × naive baseline |
|---|---|---|
| naive flat top-50 (dense, question only) | 0.145 | 1.0× |
| + LLM-in-the-loop follow-up queries | 0.297 | 2.0× |
| + RRF fusion over the follow-up queries | 0.326 | 2.25× |
| + LLM reranker (pick the chain from a top-100 pool) | 0.482 | 3.3× |
| + adaptive multi-round + rerank a deeper pool | 0.565 | 3.9× |
Reading the stages: round-1 retrieves top-15 by question similarity; the model names the missing bridge entity and emits 1–2 follow-up queries; RRF over those queries (dropping the original question ranking) fuses best; an LLM reranker selects the evidence chain from a top-100 pool; a second round names what's still missing and reranks a deeper pool. (Aside we'll keep: asking for more queries hurt — it dilutes the fusion; 1–2 sharp bridge queries are optimal.)
Why the within-result comparison is fair
- Equal budget. Every row returns exactly 50 passages, same metric. The lift is not "retrieve more."
- No leakage. The in-loop reader sees only the question and the already-retrieved turns — never the gold. The follow-ups are inferred.
- Judge-free. Full-evidence recall is exact set-containment against LoCoMo's annotated evidence.
The honest caveat that matters mostThe headline multiple is only as impressive as the baseline is weak — and ours is weak by design. The fair next test, which we have not run, is the same pipeline against a strong agentic baseline (IRCoT / PRISM-class) on this exact metric, ideally at a fixed token budget. Until then, treat this as "a known recipe + an honest under-reported metric on a real, unsaturated frontier (LoCoMo multi-hop)," not as a method that beats the field.
Other caveats: absolute recall is ~57%, not solved; stages 1, 3, 4 are per-query model calls — a real cost/recall knob, not free; one dataset (two-person conversations, where the bridge entity is a name and relatively easy to surface). Every number comes from a runnable experiment.
FAQ
Does putting the model in the retrieval loop improve multi-hop recall? Yes. On LoCoMo, full-evidence recall@50 rises from 0.145 (naive single-shot dense top-50) to 0.565 via a model-in-the-loop pipeline — all at the same 50-passage budget. That 3.9× looks large mainly because the baseline is deliberately naive.
Is this a new method or a SOTA result? No. Iterative, model-driven retrieval is mainstream — IRCoT (2023) and successors like PRISM (which lifts MuSiQue passage recall ~57%→83%). The contribution is an under-reported metric measured cleanly (full-evidence recall@50 on LoCoMo) plus a cloud-free retrieval side, not a SOTA claim.
What is full-evidence recall@50? Whether all the gold supporting turns for a multi-hop question land in the top-50 retrieved passages (mean gold size 3.17, n=276). LoCoMo is normally scored as end-task QA F1/judge, so this retrieval metric is largely unreported.
What actually drove the gains? Four compounding stages at a fixed 50-passage budget: LLM-in-the-loop follow-up queries (0.297), RRF fusion over those queries (0.326), an LLM reranker picking the chain from a top-100 pool (0.482), and adaptive multi-round rerank of a deeper pool (0.565). One or two sharp bridge queries are optimal — more dilutes the fusion.
Related research
Kde to stojí — prior art a čestný baseline
Mechanizmus je mainstream, nie náš. "Nechaj LLM prečítať prvé výsledky, pomenovať chýbajúci fakt, napísať follow-up dopyt, znova vyhľadať, potom prerob poradie" je dobre etablovaná línia iteratívneho / agentického vyhľadávania: IRCoT (Trivedi a kol. 2022), Self-RAG (Asai a kol. 2023) a nástupcovia 2025–26 ako PRISM, FAIR-RAG, FrugalRAG. Tie metódy už reportujú veľké zisky multi-hop recall nad silnými iteratívnymi baselinami (napr. PRISM dvíha MuSiQue passage recall ~57 % → ~83 %). Netvrdíme žiadnu metódovú novosť voči tejto práci.
Náš baseline je zámerne naivný, a na tom záleží. Štartovacích 14.5 % je single-shot husté top-50 podľa podobnosti k otázke — nie silný agentický baseline ako IRCoT. Takže to 3.9× treba čítať ako "známy recept opraví slabý baseline", nie "porazili sme state of the art". Vždy keď vidíš veľký násobok recall, opýtaj sa, aký silný bol baseline — náš bol slabý zámerne, aby sme izolovali tú páku, a hovoríme to.
Čo je tu naozaj užitočné, je úzke: (1) full-evidence recall@50 na LoCoMo multi-hop je zrejme málo reportované — LoCoMo sa bežne hodnotí ako QA F1/sudca a retrieval recall sa reportuje pri malom k na HotpotQA/2Wiki/MuSiQue — takže čestne to reportovať (vytiahli sme všetky zlaté dôkazové repliky?) zapĺňa malú reportovaciu medzeru; a (2) celý pipeline je na strane vyhľadávania cloud-free (lokálne embeddingy) a reprodukovateľný. To je celé tvrdenie.
Čísla
Multi-hop otázky v dlhých konverzáciách potrebujú zreťaziť 2+ fakty z rôznych replík. Odmerali sme, ako často vyhľadávanie dostane všetky zlaté dôkazové repliky do pevného kontextu 50 pasáží, na LoCoMo (n=276 multi-hop, konverzácie ~597 replík). Najprv diagnostika: zlaté repliky sú v poole, len zahrabané v poradí (recall@100 = 0.514, recall@150 = 0.641; priemerná veľkosť gold 3.17), čiže je to problém poradia. Štyri sčítavajúce sa fázy, všetky pri rovnakom rozpočte 50:
| fáza | full-recall@50 (n=276) | × naivný baseline |
|---|---|---|
| naivné flat top-50 (husté, len otázka) | 0.145 | 1.0× |
| + follow-up dopyty s modelom v slučke | 0.297 | 2.0× |
| + RRF fúzia cez follow-up dopyty | 0.326 | 2.25× |
| + LLM reranker (vyber reťazec z top-100 poolu) | 0.482 | 3.3× |
| + adaptívny multi-round + rerank hlbšieho poolu | 0.565 | 3.9× |
Čítanie fáz: round-1 vytiahne top-15 podľa podobnosti k otázke; model pomenuje chýbajúcu mostovú entitu a vydá 1–2 follow-up dopyty; RRF cez tie dopyty (s vynechaním pôvodného poradia podľa otázky) fúzuje najlepšie; LLM reranker vyberie dôkazový reťazec z top-100 poolu; druhé kolo pomenuje, čo stále chýba, a prerobí poradie hlbšieho poolu. (Pozn., ktorú si necháme: žiadať viac dopytov uškodilo — riedi to fúziu; 1–2 ostré mostové dopyty sú optimum.)
Prečo je porovnanie v rámci výsledku férové
- Rovnaký rozpočet. Každý riadok vráti presne 50 pasáží, rovnaká metrika. Zisk nie je "vytiahni viac".
- Žiadny únik. Čitateľ v slučke vidí len otázku a už vytiahnuté repliky — nikdy nie gold. Follow-upy sú odvodené.
- Bez sudcu. Full-evidence recall je presné množinové obsiahnutie voči anotovaným dôkazom LoCoMo.
Najdôležitejšia čestná výhradaHeadline násobok je pôsobivý len natoľko, nakoľko je baseline slabý — a náš je slabý zámerne. Férový ďalší test, ktorý sme nespustili, je ten istý pipeline proti silnému agentickému baselinu (trieda IRCoT / PRISM) na tejto presnej metrike, ideálne pri fixnom token rozpočte. Dovtedy to ber ako "známy recept + čestná málo-reportovaná metrika na reálnej, nesaturovanej hranici (LoCoMo multi-hop)", nie ako metódu, čo poráža pole.
Ďalšie výhrady: absolútny recall je ~57 %, nie vyriešené; fázy 1, 3, 4 sú per-query volania modelu — reálna páka cena/recall, nie zadarmo; jeden dataset (dvojosobové konverzácie, kde mostová entita je meno a relatívne ľahko sa vynesie). Každé číslo pochádza z bežateľného experimentu.
FAQ
Zlepší vloženie modelu do vyhľadávacej slučky multi-hop recall? Áno. Na LoCoMo full-evidence recall@50 stúpne z 0.145 (naivný jednorazový dense top-50) na 0.565 cez pipeline s modelom v slučke — všetko pri rovnakom rozpočte 50 pasáží. To 3.9× vyzerá veľké hlavne preto, že baseline je zámerne naivný.
Je to nová metóda alebo SOTA výsledok? Nie. Iteratívne, modelom riadené vyhľadávanie je mainstream — IRCoT (2023) a nasledovníci ako PRISM (ktorý zdvihne MuSiQue passage recall ~57%→83%). Prínos je málo-reportovaná metrika odmeraná čisto (full-evidence recall@50 na LoCoMo) plus cloud-free vyhľadávacia strana, nie SOTA tvrdenie.
Čo je full-evidence recall@50? Či všetky gold podporné ťahy pre multi-hop otázku padnú do top-50 vyhľadaných pasáží (priemerná veľkosť gold 3.17, n=276). LoCoMo sa bežne skóruje ako end-task QA F1/sudca, takže táto vyhľadávacia metrika je z veľkej časti nereportovaná.
Čo skutočne hnalo zlepšenie? Štyri sčítavajúce sa fázy pri pevnom rozpočte 50 pasáží: follow-up dopyty s LLM v slučke (0.297), RRF fúzia nad tými dopytmi (0.326), LLM reranker vyberajúci reťaz z top-100 poolu (0.482) a adaptívny viackolový rerank hlbšieho poolu (0.565). Jeden či dva ostré bridge dopyty sú optimálne — viac riedi fúziu.