Statystyka A/B: próba, istotność i fałszywe zwycięstwa

Co wyniesiesz z tego artykułu?

Werdykt: naucz się kilku prostych zasad i test A/B przestanie być loterią.
Dla kogo: marketing, product i małe zespoły analityczne — kiedy to ma sens i kiedy nie.
Start: ustal cel, mierz konwersję, policz wymaganą próbę przed uruchomieniem.

Obietnica decyzji (dla kogo ten tekst)

Krótko: jeśli robisz A/B testy w produktach lub marketingu, dowiesz się jak ustalić wielkość próby, co naprawdę znaczy p-value i jak nie dać się oszukać wynikowi. Na końcu jest jasny werdykt: kiedy test traktować jak sygnał, a kiedy jak szum.

Najczęstsze pytania — szybkie decyzje

Czy p < 0.05 oznacza, że wariant wygrał na pewno? Nie — to tylko wskazówka, nie pewnik. ([en.wikipedia.org)
Czy mogę sprawdzać wyniki w trakcie i zatrzymać test wcześniej? To zwiększa ryzyko fałszywych zwycięstw (optional stopping). Jeśli nie kontrolujesz tego w procedurze, wynik może być mylący. ([en.wikipedia.org)
Ile danych potrzebuję? Policzyć wymaganą próbę przed startem; bez tego ryzykujesz, że nie wiesz, czy nie-znaczący wynik to brak efektu czy za mała próba.

Czym jest p-value i dlaczego to ważne

P-value to prawdopodobieństwo otrzymania wyników przynajmniej tak ekstremalnych jak obserwowane, zakładając, że brak efektu (null hypothesis) jest prawdziwy — to techniczna definicja; praktycznie: to miara zgodności danych z założeniem „bez różnicy”. Z tego powodu p-value nie mówi bezpośrednio o prawdopodobieństwie, że Twoja hipoteza jest prawdziwa. Zobacz definicję p-value. ([en.wikipedia.org)

Co to znaczy w praktyce

Jeśli p < α (np. α = 0.05), to masz podstawy do odrzucenia hipotezy braku efektu — ale nie znaczy to, że efekt jest duży lub ważny.
Źródła błędów: za mała próba, wielokrotne testowanie wielu wariantów, analiza „na bieżąco” oraz nieprzemyślane metryki. Wszystkie te praktyki podbijają liczbę fałszywych pozytywów (p-hacking/optional stopping). ([wired.com)

Jak zacząć A/B test z głową — krótka ścieżka (5 minut start)

Zdefiniuj jedną metrykę konwersji (co najważniejsze).
Ustal minimalnie istotny efekt (jaką poprawę uznasz za sensowną finansowo).
Policz wymaganą wielkość próby (narzędzia: kalkulatory mocy testu).
Zaplanuj okres testu i zasady zatrzymania (bez „sprawdzam co godzinę”).
Uruchom i trzymaj się planu.

W praktyce: jeśli nie wiesz jak policzyć próby, skorzystaj z darmowych kalkulatorów mocy lub prostego narzędzia w Excelu — to zwykle zajmuje < 10 min.

Fakty → Skutek → Werdykt

Fakt: p-value to miara zgodności z hipotezą zerową; popularne α = 0.05 to konwencja. ([en.wikipedia.org)
Skutek: stosowanie tylko p < 0.05 bez kontekstu prowadzi do błędnych decyzji. ([en.wikipedia.org)
Werdykt: Traktuj p-value jako jedną z informacji, nie jako wyrok.

Mini-porównanie decyzji (tabela)

Segment	Co najważniejsze	Mini-werdykt
Mały zespół marketingu, budżet ograniczony	Priorytet: prostota metryki i minimalny efekt	Dobrze — jeśli liczysz próbę i ograniczasz analizę
Produkt z dużym ruchem (miliony użytk.)	Priorytet: kontrola mocy testu i efektu praktycznego	W porządku — ale zwracaj uwagę na efekt praktyczny
Badania akademickie / publikacje	Priorytet: pre-rejestracja i kontrola wielu testów	Wymaga rygoru — p-value bez pre-reg. jest podejrzane

Plusy, typowe skargi i synteza

Plusy:

Daje prostą regułę decyzji (łatwo komunikować z zespołem).
Przy poprawnym planowaniu pomaga oszczędzać budżet i czas.

Typowe skargi:

„Wynik zmienił się po 3 dniach” — to objaw optional stopping. ([en.wikipedia.org)
„P < 0.05, ale efekt jest śmiesznie mały” — statystyczna istotność ≠ znaczenie biznesowe.

Synteza: jeśli ustalisz metrykę, wielkość próby i zasady analizy przed startem, p-value będzie użytecznym narzędziem; jeśli nie, stanie się źródłem fałszywych triumfów.

Co zrobić jeśli wynik jest niejednoznaczny

Sprawdź, czy próbę policzono wcześniej. Jeśli nie, policz ją retroaktywnie i napisz o tym w raporcie.
Oceń efekt praktyczny (czy różnica uzasadnia koszt wdrożenia?).
Rozważ powtórzenie testu z większą mocą lub zmiany eksperymentu.

Jeżeli potrzebujesz zweryfikować konkretną metodę liczenia próby lub wątpliwych zasad zatrzymania testu, zajrzyj do źródeł teoretycznych i porad praktyków — definicję p-value znajdziesz tutaj: definicja p-value. ([en.wikipedia.org)

Podsumowanie — kto powinien to robić, a kto nie

Idealne dla: zespołów, które potrafią jasno opisać metrykę i policzyć próbę.
Będzie frustrować: osoby, które oczekują „magicznego” wyniku po kilku dniach i bez planu analizy.
Prosty next step: wybierz jedną kluczową metrykę, policz próbę przed startem i zapisz reguły zatrzymania — to minimalny próg, który eliminuje większość fałszywych zwycięstw.

Werdykt końcowy: p-value i testy A/B działają, jeśli stosujesz je z dyscypliną. Jeśli skipujesz plan, traktuj wynik jak plotkę. ([en.wikipedia.org)

Więcej o p-value

Statystyka A/B bez doktoratu: próba, istotność i fałszywe zwycięstwa

Co wyniesiesz z tego artykułu?

Obietnica decyzji (dla kogo ten tekst)

Najczęstsze pytania — szybkie decyzje

Czym jest p-value i dlaczego to ważne

Co to znaczy w praktyce

Jak zacząć A/B test z głową — krótka ścieżka (5 minut start)

Fakty → Skutek → Werdykt

Mini-porównanie decyzji (tabela)

Plusy, typowe skargi i synteza

Co zrobić jeśli wynik jest niejednoznaczny

Podsumowanie — kto powinien to robić, a kto nie

Przeczytaj również

AI i RODO w no‑code: minimalizacja danych, zgody i bezpieczne scenariusze dla polskich firm

Index29

Index15

Eksperymenty cenowe i pakietowe — jak testować bez ryzyka wizerunkowego

Testy na landingach: VWO vs Optimizely vs wbudowane narzędzia — co wystarczy większości firm

Alerty i dzienne raporty metryk w Slacku i e‑mailu — Make vs Zapier

Analiza lejka: gdzie użytkownicy odpadają i jak to naprawić bez zgadywania

Cohorty i retencja w no-code: jak sprawdzić, czy produkt naprawdę trzyma

Heatmapy i nagrania sesji: Hotjar vs Microsoft Clarity — który wybrać

Statystyka A/B bez doktoratu: próba, istotność i fałszywe zwycięstwa

Co wyniesiesz z tego artykułu?

Obietnica decyzji (dla kogo ten tekst)

Najczęstsze pytania — szybkie decyzje

Czym jest p-value i dlaczego to ważne

Co to znaczy w praktyce

Jak zacząć A/B test z głową — krótka ścieżka (5 minut start)

Fakty → Skutek → Werdykt

Mini-porównanie decyzji (tabela)

Plusy, typowe skargi i synteza

Co zrobić jeśli wynik jest niejednoznaczny

Podsumowanie — kto powinien to robić, a kto nie

Przeczytaj również

Powiązane artykuły