Wenn Wissenschaft ein objektives Mittel ist, um nach Wahrheit zu suchen, erfordert sie auch menschliche Urteile. Angenommen, Sie sind ein Psychologe mit einer Hypothese: Die Menschen verstehen, dass sie in unbewusster Weise gegen stigmatisierte Gruppen voreingenommen sein können. Sie werden dies zugeben, wenn Sie sie fragen. Das scheint eine ziemlich einfache Idee zu sein - eine, die entweder wahr ist oder nicht. Aber der beste Weg, es zu testen, ist nicht unbedingt offensichtlich. Was meinen Sie mit negativen Stereotypen? Über welche stigmatisierten Gruppen sprechen Sie? Wie würden Sie messen, inwieweit sich die Menschen ihrer impliziten Einstellungen bewusst sind, und wie würden Sie ihre Bereitschaft messen, sie offenzulegen?
Diese Fragen könnten auf viele verschiedene Arten beantwortet werden; diese wiederum können zu sehr unterschiedlichen Ergebnissen führen. Ein neues Crowdsourcing-Experiment mit mehr als 15.000 Probanden und 200 Forschern in mehr als zwei Dutzend Ländern belegt diesen Punkt. Als verschiedene Forschungsteams ihre eigenen Mittel entwickelten, um dieselben Forschungsfragen zu testen, kamen sie zu unterschiedlichen und in einigen Fällen gegensätzlichen Ergebnissen.
Die Crowdsourcing-Studie ist eine dramatische Demonstration einer Idee, die im Lichte der Reproduzierbarkeitskrise vielfach diskutiert wurde - die Vorstellung, dass subjektive Entscheidungen, die Forscher bei der Gestaltung ihrer Studien treffen, einen enormen Einfluss auf die beobachteten Ergebnisse haben können. Ob durch P-Hacking oder durch die Entscheidungen, die sie treffen, wenn sie durch den Garten der Gabelpfade streifen, können Forscher ihre Ergebnisse absichtlich oder versehentlich auf eine bestimmte Schlussfolgerung hin verschieben.
Der leitende Autor der neuen Zeitung, der Psychologe Eric Uhlmann vom INSEAD in Singapur, hatte zuvor eine Studie angeführt, in der 29 Forschungsteams einen einzigen Datensatz erhielten, und sie gebeten, ihn zur Beantwortung einer einfachen Forschungsfrage zu verwenden: „Geben Fußballschiedsrichter mehr rote Karten für dunkelhäutige Spieler als für hellhäutige? “Trotz der Analyse identischer Daten kam keines der Teams zu genau der gleichen Antwort. In diesem Fall zeigten die Ergebnisse der Gruppen jedoch im Allgemeinen in die gleiche Richtung.
Die Rote-Karte-Studie zeigte, wie Entscheidungen über die Analyse von Daten die Ergebnisse beeinflussen können, aber Uhlmann wunderte sich auch über die vielen anderen Entscheidungen, die in das Studiendesign einfließen. Deshalb initiierte er diese neueste Studie, eine noch umfangreichere und ehrgeizigere, die im The Psychological Bulletin veröffentlicht wird (Daten und Materialien werden offen online ausgetauscht). Das Projekt startete mit fünf bereits experimentell getesteten Hypothesen, zu denen noch keine Ergebnisse veröffentlicht wurden.
Abgesehen von der oben beschriebenen Hypothese über implizite Assoziationen betrafen diese Dinge beispielsweise, wie Menschen auf aggressive Verhandlungstaktiken reagieren oder welche Faktoren sie eher bereit machen könnten, den Gebrauch leistungssteigernder Drogen bei Sportlern zu akzeptieren. Uhlmann und seine Kollegen stellten mehr als einem Dutzend Forscherteams dieselben Forschungsfragen, ohne ihnen etwas über die ursprüngliche Studie oder deren Ergebnisse zu erzählen.
Die Teams erstellten dann unabhängig voneinander ihre eigenen Experimente, um die Hypothesen unter einigen gemeinsamen Parametern zu testen. Die Studien müssten online durchgeführt werden, wobei die Teilnehmer jeweils zufällig aus einem gemeinsamen Pool gezogen würden. Jedes Forschungsdesign wurde zweimal durchgeführt: einmal an Probanden, die aus Mechanical Turk bei Amazon gezogen wurden, und dann erneut an einer neuen Gruppe von Probanden, die über eine Umfragefirma namens Pure Profile gefunden wurden.
Die veröffentlichten Studienmaterialien zeigen, wie unterschiedlich die Forschungsdesigns waren. Bei der Prüfung der ersten Hypothese, zum Beispiel, dass Menschen sich ihrer unbewussten Vorurteile bewusst sind, hat ein Team die Teilnehmer lediglich gebeten, ihre Zustimmung zu der folgenden Aussage zu bewerten: „Ungeachtet meiner ausdrücklichen (dh bewussten) Überzeugung von sozialer Gleichheit glaube ich, dass ich sie besitze automatische (dh unbewusste) negative Assoziationen zu Mitgliedern stigmatisierter sozialer Gruppen. “Auf der Grundlage der Antworten auf diese Frage gelangten sie zu dem Schluss, dass die Hypothese falsch war: Menschen berichten nicht über das Bewusstsein impliziter negativer Stereotype.
Ein anderes Team testete dieselbe Hypothese, indem es die Probanden aufforderte, sich mit einer politischen Partei zu identifizieren und ihre Gefühle gegenüber einem hypothetischen Mitglied der Oppositionspartei einzustufen. Mit diesem Ansatz stellten sie fest, dass die Menschen sehr bereit sind, ihre eigenen negativen Stereotypen zu melden. In der Zwischenzeit zeigte ein drittes Team Probandenfotos von Männern und Frauen, die weiß, schwarz oder übergewichtig waren (sowie von Welpen oder Kätzchen), und bat sie, ihre „sofortige Reaktion auf diese Person auf Bauchhöhe“zu bewerten zeigten, dass die Menschen tatsächlich damit fertig wurden, negative Assoziationen mit Menschen aus stigmatisierten Gruppen zu haben.
Als die Studie beendet war, hatten sieben Gruppen Beweise für die Hypothese gefunden, während sechs Beweise dagegen gefunden hatten. Alles in allem würden diese Daten nicht den Gedanken stützen, dass Menschen ihre eigenen impliziten Assoziationen erkennen und melden. Wenn Sie jedoch nur die Ergebnisse eines Gruppenentwurfs gesehen hätten, wäre es leicht gewesen, zu einer anderen Schlussfolgerung zu gelangen.
Die Studie ergab für vier von fünf Hypothesen ein ähnliches Muster: Verschiedene Forschungsteams hatten statistisch signifikante Effekte in entgegengesetzte Richtungen erzielt. Selbst wenn eine Forschungsfrage Antworten in die gleiche Richtung lieferte, war die Größe der gemeldeten Effekte überall auf der Karte. Elf von 13 Forschungsteams haben Daten erstellt, die eindeutig die Hypothese stützen, dass extreme Angebote beispielsweise das Vertrauen der Menschen in eine Verhandlung verringern, während die Ergebnisse der anderen beiden auf dieselbe Idee hindeuten. Einige Gruppen stellten jedoch fest, dass ein extremes Angebot einen sehr großen Einfluss auf das Vertrauen hatte, während andere feststellten, dass der Effekt nur geringfügig war.
Die Moral der Geschichte hier ist, dass eine bestimmte Studie nicht viel bedeutet, sagt Anna Dreber, Wirtschaftswissenschaftlerin an der Stockholm School of Economics und Autorin des Projekts. „Wir Forscher müssen jetzt viel vorsichtiger sein, wenn wir sagen:‚ Ich habe die Hypothese getestet. ' Sie müssen sagen: "Ich habe es auf diese ganz bestimmte Weise getestet." Ob es auf andere Einstellungen verallgemeinert wird, muss mehr Forschung zeigen. “
Dieses Problem - und dieser Ansatz, es zu demonstrieren - ist nicht auf die Sozialpsychologie beschränkt. In einem kürzlich durchgeführten Projekt wurden 70 Teams gebeten, neun Hypothesen unter Verwendung desselben Datensatzes funktioneller Magnetresonanzbilder zu testen. Keines der beiden Teams verfolgte genau den gleichen Ansatz, und die Ergebnisse schwankten wie erwartet.
Wenn man nur nach den Ergebnissen dieser Projekte urteilen würde, könnte man vermuten, dass die wissenschaftliche Literatur ein Dickicht gegensätzlicher Ergebnisse sein würde. (Wenn unterschiedliche Forschungsgruppen häufig zu unterschiedlichen Antworten auf die gleichen Fragen gelangen, sollten die Zeitschriften mit Widersprüchen gefüllt sein.) Stattdessen ist das Gegenteil der Fall. Zeitschriften sind voller Studien, die die Existenz eines hypothetischen Effekts bestätigen, während Nullergebnisse in einer Aktenschublade verworfen werden. Denken Sie an die Ergebnisse, die oben in Bezug auf die implizite Bias-Hypothese beschrieben wurden: Die Hälfte der Gruppen fand Beweise dafür und die andere Hälfte fand Beweise dagegen. Wenn diese Arbeit in der Wildnis des wissenschaftlichen Publizierens ausgeführt worden wäre, hätte sich das erstere in formellen Papieren niedergeschlagen, während der Rest begraben und ignoriert worden wäre.
ABONNIEREN

Abonnieren Sie WIRED und bleiben Sie mit Ihren Lieblingsautoren für Ideen auf dem Laufenden.
Die Demonstration von Uhlmann und Kollegen schlägt vor, Hypothesen auf vielfältige und transparente Weise zu prüfen. „Wir müssen mehr Studien durchführen, um dieselbe Idee mit verschiedenen Methoden zu untersuchen“, sagt Dorothy Bishop, Psychologin an der Universität Oxford. Auf diese Weise können Sie "wirklich klarstellen, wie solide es ist, bevor Sie auf und ab springen und einen großen Tanz darüber machen."
Die Ergebnisse sprechen sicherlich für Demut, sagt Uhlmann. „Wir müssen vorsichtig sein, was wir in dem Artikel sagen, was unsere Universität in der Pressemitteilung sagt, was wir in den Medieninterviews sagen. Wir müssen vorsichtig sein, was wir behaupten. “Die Anreize drängen auf hohe Ansprüche, aber gute Wissenschaft bedeutet wahrscheinlich, langsamer zu werden und mehr Vorsicht walten zu lassen.