Abbildung 1: Treffer bei der Suche nach “Christmas” (Weihnachten, rot) und “Divorce” (Scheidung, blau) in der Google Books Ngram Datenbank englischer Texte aus der Zeit zwischen 1850 und 1950. Die zwei Datensätze korrelieren stark (Pearson Korrelationskoeffizient R=0.93)
Der obenstehende Graph zeigt, dass die Worte “Weihnachten” und “Scheidung” in Texten, die zwischen 1850 und 1950 veröffentlicht würden, stark korrelieren - d.h. immer ähnlich oft vorkommen. Bedeutet das etwa, dass ein direkter Zusammenhang zwischen dem Weihnachtsfest und Scheidungen besteht? Fassen Paare in der Weihnachtszeit eher den Entschluss sich scheiden zu lassen?
Die Interpretation solcher Korrelationen ist schwierig und lässt leicht voreilige Schlüsse zu. Es ist wichtig zu betonen, dass Korrelation - also das gemeinsame Auftreten von zwei Ereignissen - nicht unbedingt auf eine direkte Verbindung, oder gar einen kausalen Zusammenhang (ein Ereignis bedingt das andere) schließen lässt.
Es gibt viele Beispiele für “falsche” Korrelationen, die oft auch “Scheinkorrelationen” genannt werden. Oft genügt der Hausverstand um sie zu überführen, in manchen Fällen ist das Erkennen solcher zufälliger Zusammenhänge aber schwerer (hier in diesem Artikel zum Beispiel, wird die These vertreten, dass die Weihnachtsstimmung schon an einem Anstieg in der Scheidungsrate schuld sein könnte). Oft sind weitere Nachforschungen und zusätzliche Daten notwendig, um kausale (also “echte”) Zusammenhänge von zufälligen zu unterscheiden.
Einige besonders amüsante Beispiele von Scheinkorrelationen sind hier gesammelt. Hier findet sich zum Beispiel die unheimlich gute Korrelation zwischen Scheidungsraten und Margarineverzehl im US Bundesstaat Maine. Die Datensätze sehen fast identisch aus, aber es besteht logischerweise kein direkter Zusammenhang zwischen den beiden.
Wir halten also fest: Man muss schon besonders vorsichtig sein, Korrelation nicht mit Kausalität zu verwechseln. Sie zu vermischen heißt, falsche Schlüsse zu ziehen, die zwar möglicherweise auf soliden Daten basieren, aber trotzdem fehlgeleitet sind. Es bedeutet für uns Wissenschaftler Vorsicht bei der Interpretation von Daten an den Tag zu legen.
In Amerika korreliert die Weihnachtszeit sehr stark mit dem Verzehr von Eggnog (einem Eierpunsch). Nun stellt sich die Frage: ist diese Korrelation echt oder “fake”?
Was denkt ihr?
Ps: Der Code (geschrieben in R), den wir verwendet haben um die Google ngrams/trends Suchen durchzuführen und die Korrelationen darzustellen findet ihr in unserem Github Repository. Sie können auch dazu verwendet werden, nach anderen (Schein-)Korrelationen zu suchen (siehe auch Google correlate project)
Für eine eher ernstere (mathematischere) Diskussion zum Thema “Scheinkorrelationen” empfehlen wir dieses Video
Über die Autoren
Niko Popitsch studierte Informatik und Molekularbiologie und arbeitet derzeit am Children’s Cancer Research Insitute in Wien, wo er innovative, bioinformatische Methoden auf pädiatrische Datensätze anwendet, um Krebs bei Kindern besser zu verstehen und zu bekämpfen.
Anna Köferle studierte Biochemie in Oxford und machte danach ihr Doktorat am University College London. Sie interessiert sich ganz besonders für Genregulierung, Epigenetik, und alles was mit der Genschere “CRISPR” zu tun hat. Seit sie vor zwei Jahren eine PostDoc-Stelle an der Ludwig-Maximilians-Universität München angetreten hat, kommt sie auch öfters mit Themen aus der Neurobiologie in Kontakt.
Lukas Hutter studierte Chemie in Graz und Systembiologie in Oxford. Er ist einer der Mitbegründer von Biotop und arbeitet derzeit als Lehrer in Villach.