Passing a Pre-Trends Test Is Weak Evidence — We Measured ItPrejsť testom pre-trendov je slabý dôkaz — odmerali sme to
A difference-in-differences pre-trends test catches only about one-third of the violations that ruin your estimate. Measured, with the simulation and the falsifier.Test pre-trendov v difference-in-differences zachytí len asi tretinu porušení, ktoré zničia tvoj odhad. Odmerané, so simuláciou aj falzifikátorom.
The claim. In difference-in-differences (DiD) — one of the most-used causal designs in economics, policy, and product analytics — the standard reassurance is "we checked the pre-trends, they're parallel." We measured how much that check is actually worth. The answer: at the panel lengths people really use, a non-significant pre-trends test misses about two-thirds of the violations that would ruin your estimate. Passing it is weak evidence, not a clearance certificate.
The setup. We simulated 2,000 panels per condition — one treated unit, 20 controls, 6 pre-periods and 4 post-periods, a true treatment effect of 2.0 — and injected three kinds of assumption violation at varying strength. For each, we measured (a) the bias it puts into the DiD estimate, and (b) how often a standard pre-trends test flags it.
The measurement.
| violation | magnitude | DiD bias | % of true effect | pre-trends test catches it |
|---|---|---|---|---|
| parallel-trends | slope 0.3/period | +1.52 | 76% | only 31% |
| parallel-trends | slope 0.6/period | +3.00 | 150% | 70% |
| anticipation | leak into last pre-period | −0.13 to −0.33 | 6–17% | 13–20% |
| composition (level shift) | +1.0 to +2.0 | +0.49 to +0.99 | 25–50% | 25–49% |
Three results stand out:
- 1. Parallel-trends violation is by far the most damaging. A gentle, easily-overlooked drift — slope 0.3 per period — already inflates the estimate by 76%. You do not need a dramatic violation to get a fatal one.
- 2. The pre-trends test is underpowered exactly where it matters. At a violation causing 76% bias it fires only 31% of the time. Roughly two of every three seriously-biased studies sail through the standard check and report a confidently wrong number.
- 3. **Short panels make the test both weak and slightly oversized.** With only 6 pre-periods the false-positive rate sits near 12% — above the nominal 5% — so the test misleads in both directions at once: it misses real violations and occasionally flags clean data.
Why the test is underpowered
The failure is structural, not a tuning problem. A pre-trends test asks: is the pre-period slope difference statistically distinguishable from zero? With six pre-periods and ordinary noise, the standard error on that slope is large — so a real, study-ruining drift can sit comfortably inside the confidence interval and never reach significance. The very thing you most need to detect (a small, persistent divergence) is the thing a short panel has the least power to see. Lengthening the pre-period is the only honest fix, because power scales with the span you observe, not with how confidently you assert the assumption.
There is a deeper pattern here, and it is the same one across quasi-experimental design: bias and power trade against each other, and the binding constraint is almost always the bias you cannot see. In a companion measurement we found that a randomized A/B test beats a difference-in-differences design precisely when the unobservable parallel-trends bias exceeds the experiment's own standard error — a bias threshold, not a question of sample size. A confident, "significant" quasi-experimental result on a small true effect can be pure bias wearing the sign of the effect.
What to do instead
Stop treating "we checked the pre-trends" as a pass/fail gate, and treat the assumption as something to bound rather than to certify:
- 1. Lengthen the pre-period wherever you can. It is the one lever that buys real power against the small drifts that matter.
- 2. Report sensitivity to bounded violations — "honest DiD" style. Instead of asserting parallel trends, state the largest pre-trend the data cannot rule out, and show how the estimate moves under it. A result that survives the worst plausible violation is credible; one that needs zero violation is not.
- 3. Prefer a design that doesn't lean on parallel trends at all when the stakes are high: a randomized A/B test (no parallel-trends assumption to violate), or synthetic DiD / a synthetic control when you have a single treated unit and a long, matchable pre-period.
Why it matters. "We checked the pre-trends" has hardened into a clearance certificate that reviewers and dashboards accept on sight. At realistic panel lengths it is closer to a coin flip against the one violation that matters most — and the studies that pass it are not the safe ones, they are the ones whose bias was too quiet for a short panel to hear.
The falsifierIf a pre-trends test, or a modern alternative, achieves high power against slope-0.3 violations at six or fewer pre-periods, the "weak clearance" conclusion breaks. We invite that test — it is exactly the instrument practitioners need and currently lack.
Tvrdenie. Pri difference-in-differences (DiD) — jednom z najpoužívanejších kauzálnych návrhov v ekonómii, politike a produktovej analytike — znie štandardné ubezpečenie: „skontrolovali sme pre-trendy, sú paralelné." Odmerali sme, akú hodnotu tá kontrola naozaj má. Odpoveď: pri dĺžkach panelov, ktoré ľudia reálne používajú, nesignifikantný test pre-trendov prehliadne približne dve tretiny porušení, ktoré by zničili tvoj odhad. Prejsť ním je slabý dôkaz, nie certifikát čistoty.
Nastavenie. Simulovali sme 2 000 panelov na podmienku — jedna ošetrená jednotka, 20 kontrol, 6 pre-období a 4 post-obdobia, skutočný efekt 2,0 — a vstrekli tri druhy porušenia predpokladu rôznej sily. Pri každom sme odmerali (a) skreslenie, ktoré vnesie do DiD odhadu, a (b) ako často ho štandardný test pre-trendov zachytí.
Meranie.
| porušenie | sila | DiD skreslenie | % skutočného efektu | test pre-trendov ho chytí |
|---|---|---|---|---|
| paralelné trendy | sklon 0,3/obdobie | +1,52 | 76 % | len 31 % |
| paralelné trendy | sklon 0,6/obdobie | +3,00 | 150 % | 70 % |
| anticipácia | únik do posl. pre-obdobia | −0,13 až −0,33 | 6–17 % | 13–20 % |
| kompozícia (posun úrovne) | +1,0 až +2,0 | +0,49 až +0,99 | 25–50 % | 25–49 % |
Tri výsledky vyčnievajú:
- 1. Porušenie paralelných trendov je zďaleka najškodlivejšie. Mierny, ľahko prehliadnuteľný drift — sklon 0,3 za obdobie — už nafúkne odhad o 76 %. Nepotrebuješ dramatické porušenie, aby bolo smrteľné.
- 2. Test pre-trendov je poddimenzovaný presne tam, kde záleží. Pri porušení spôsobujúcom 76 % skreslenie sa spustí len v 31 % prípadov. Zhruba dve z troch vážne skreslených štúdií prejdú štandardnou kontrolou a sebavedomo nahlásia nesprávne číslo.
- 3. **Krátke panely robia test slabým aj mierne predimenzovaným.** Pri 6 pre-obdobiach je miera falošných poplachov okolo 12 % — nad nominálnymi 5 % — takže klame v oboch smeroch naraz: prehliada reálne porušenia a občas označí čisté dáta.
Prečo je test poddimenzovaný
Zlyhanie je štrukturálne, nie otázka ladenia. Test pre-trendov sa pýta: je rozdiel sklonov v pre-období štatisticky odlíšiteľný od nuly? So šiestimi pre-obdobiami a bežným šumom je štandardná chyba toho sklonu veľká — takže reálny, štúdiu-ničiaci drift môže pohodlne sedieť vnútri intervalu spoľahlivosti a nikdy nedosiahne signifikanciu. To, čo najviac potrebuješ odhaliť (malá, vytrvalá divergencia), je práve to, na čo má krátky panel najmenej sily. Predĺženie pre-obdobia je jediná poctivá náprava, lebo sila škáluje s rozsahom, ktorý pozoruješ, nie s tým, ako sebavedomo predpoklad tvrdíš.
Je tu hlbší vzorec, a je rovnaký naprieč kvázi-experimentálnym dizajnom: skreslenie a sila idú proti sebe, a viažuce obmedzenie je takmer vždy to skreslenie, ktoré nevidíš. V sprievodnom meraní sme zistili, že randomizovaný A/B test poráža DiD práve vtedy, keď nepozorovateľné skreslenie paralelných trendov prekročí vlastnú štandardnú chybu experimentu — je to prah skreslenia, nie otázka veľkosti vzorky. Sebavedomý, „signifikantný" kvázi-experimentálny výsledok na malom skutočnom efekte môže byť čisté skreslenie nosiace znamienko efektu.
Čo robiť namiesto toho
Prestaň brať „skontrolovali sme pre-trendy" ako pass/fail bránu a ber predpoklad ako niečo, čo treba ohraničiť, nie certifikovať:
- 1. Predĺž pre-obdobie, kde sa dá. Je to jediná páka, ktorá kupuje reálnu silu proti malým driftom, na ktorých záleží.
- 2. Reportuj citlivosť na ohraničené porušenia — štýl „honest DiD". Namiesto tvrdenia paralelných trendov uveď najväčší pre-trend, ktorý dáta nevedia vylúčiť, a ukáž, ako sa odhad pod ním pohne. Výsledok, čo prežije najhoršie hodnoverné porušenie, je dôveryhodný; ten, čo potrebuje nulové porušenie, nie.
- 3. Uprednostni dizajn, ktorý sa o paralelné trendy vôbec neopiera, keď je v hre veľa: randomizovaný A/B test (žiadny predpoklad paralelných trendov na porušenie), alebo synthetic DiD / syntetická kontrola, keď máš jednu ošetrenú jednotku a dlhé, zhodovateľné pre-obdobie.
Prečo to záleží. „Skontrolovali sme pre-trendy" stvrdlo na certifikát čistoty, ktorý recenzenti aj dashboardy berú na prvý pohľad. Pri reálnych dĺžkach panelov je to bližšie k hodu mincou proti jednému porušeniu, na ktorom najviac záleží — a štúdie, čo ním prejdú, nie sú tie bezpečné, sú to tie, ktorých skreslenie bolo príliš tiché na to, aby ho krátky panel počul.
FalzifikátorAk test pre-trendov, alebo moderná alternatíva, dosiahne vysokú silu proti porušeniam so sklonom 0,3 pri šiestich či menej pre-obdobiach, záver o „slabej čistote" padá. Pozývame ten test — je to presne nástroj, ktorý praktici potrebujú a momentálne im chýba.