Statistik: Frequentistisch vs. Bayes

TL;DR

Frequentistische Tests liefern p-Wert und Konfidenz, Bayes liefert die Wahrscheinlichkeit, dass eine Variante gewinnt. Beide sind valide – entscheidend ist eine korrekte Interpretation.

Ein A/B-Test ist nur so gut wie seine Auswertung. Zwei Schulen dominieren: die frequentistische und die bayessche Statistik. Splitwave unterstützt beide – pro Projekt wählbar. Dieser Guide erklärt den Unterschied in Alltagssprache.

Frequentistische Statistik

Der klassische Ansatz fragt: „Wie wahrscheinlich wäre dieses Ergebnis, wenn es in Wahrheit keinen Unterschied gäbe?" Antwort darauf gibt der p-Wert. Ist er klein (typisch < 0,05), gilt das Ergebnis als statistisch signifikant.

Splitwave nutzt dafür den Zwei-Proportionen-z-Test und meldet:

Konfidenz (1 − p-Wert) als Sicherheit gegen den Zufall,
Uplift als relative Verbesserung,
ein Konfidenzintervall für die plausible Spanne des Effekts.

Stärke: etabliert, weit verbreitet, gut vergleichbar. Schwäche: Der p-Wert wird leicht falsch interpretiert – er ist keine Wahrscheinlichkeit, dass die Variante gewinnt.

Bayessche Statistik

Der bayessche Ansatz beantwortet die Frage, die die meisten eigentlich stellen: „Wie wahrscheinlich ist es, dass die Variante besser ist als die Control?" Splitwave berechnet dafür über ein Beta-Binomial-Modell (Monte-Carlo mit festem Seed):

die Wahrscheinlichkeit, die Control zu schlagen,
den erwarteten Uplift,
ein Credible-Interval (95 %).

Stärke: intuitiv interpretierbar, gut für laufende Beobachtung. Schwäche: hängt von Modellannahmen ab und ist weniger „standardisiert".

Wann welche Methode?

Frequentistisch, wenn du klassische Signifikanz brauchst, etwa für Reporting oder Vergleichbarkeit.
Bayes, wenn du eine direkt verständliche Gewinnwahrscheinlichkeit möchtest.

Stichprobengröße und Laufzeit

Egal welche Methode: Zu wenig Daten führen zu Scheinergebnissen. Splitwave verlangt eine Mindestzahl an Conversions und ein Konfidenzniveau, bevor ein Gewinner ausgerufen wird. Liegen zu wenige Daten vor, lautet das Ergebnis bewusst „nicht signifikant" statt einer Fehlinterpretation.

Fazit

Beide Methoden sind valide. Entscheidend ist nicht die Schule, sondern die Disziplin: klares Ziel, ausreichende Stichprobe, ehrliche Interpretation.

Snippet einbauen, Variante bauen, Ergebnisse messen – ohne Entwickler, ohne Cookies.

Kostenlos testen