Skip to content

Beispiel 30b: Eine Umfrage und ein wenig Selbstreflexion

Februar 13, 2013

Heute hab ich zwei Themen. Zum einen mal wieder eine Selbstbeobachtung und dann etwas zu einem „Fragebogen zur Geschlechterfrage in der Piratenpartei

1) Selbstbeobachtung

Ich hatte heute mehrere Tweets gelesen, die obige Umfrage kritisierten. Nachdem ich ja einen gewissen Fetisch für kaputte Umfragen habe und ich gleichzeitig wichtig finde, mehr belastbare Infos über dieses Thema zu bekommen habe ich mir die Umfrage gleich angeschaut. Und schon auf Frage 2 tauchten die ersten Probleme auf (s.u.). Noch relativ geringe, aber ok. Dann auf Seite 7 ein ziemlicher Hammer (s.u.). Eindeutig kaputt. Die Bewertung ist klar: Die Umfrage taugt nix und breche ich damit ab. Und das habe ich dann auch gleich kundgetan.

Im Laufe des Tages hatte ich dann Zeit darüber nachzudenken. Was war passiert? Zunächst hatte ich durch die Tweets schon ein Priming und anschliessend bin ich natürlich auf konfirmatorische Informationssuche gegangen. D.h. ich war nicht mehr neutral sondern habe explizit nach Fehlern gesucht, statt die Umfrage erstmal objektiv zu betrachten. Das eigentliche Problem kommt aber im nächsten Schritt. Aus einem ernsthaften Fund (N=1) habe ich dann auf den Rest der Umfrage geschlossen (Unzulässige Verallgemeinerung, Halo-Effekt). Und das ohne jede Prüfung. So gesehen hätte mein Urteil maximal lauten dürfen „Es gibt ein Item der Umfrage aus dem keine Schlussfolgerungen getroffen werden kann!“ – Und nicht wie ich gestehen muss: „Die Umfrage ist nicht valide!“ Erschwerend kommt hinzu, dass ich ja noch nicht mal den Sinn des problematischen Items kenne. D.h. es könnte absichtlich drin sein. Ohne die Fragestellung und die Gedanken dahinter zu kennen, kann ich dies eigentlich nicht beurteilen.

*MalWiederAufMeinenMerkzettelkritzel*: Erst denken, dann schreiben!

2) Analyse

Nur weil ich zu vorschnell Urteile, heisst dies ja nicht, dass die Umfrage NICHT problematisch ist. Also das Ganze nochmal mit etwas Abstand betrachtet:

Frage 1,2

(und ggf. auch noch bei einigen anderen Punkten): Die Items haben eine (für alle Teilnehmer (TN) gleiche) Sortierung. In Kombination mit der (undeutlichen) Beschränkung der Antwort-Items kann dies zu Problemen führen.

Normalerweise werden solche Items durchgemisch um z.B. Primacy/Recency-Effekte zu verhindern. Insb. wenn man sich (wie ich) nicht bewusst ist, dass es eine Beschränkung gibt, kann es dazu führen, dass man im ersten Teil deutlich mehr ankreuzt als im zweiten Teil. Sobald man mitgeteilt bekommt, dass eine Beschränkung herrscht, verändert man ggf. seine Antworten. Es steht jedoch zu erwarten, dass man weniger Änderungen vornimmt, als wenn man von Vorneherein nur die Treffendsten ausgewählt hätte.

Veranschaulichen kann man den Effekt indem man sich am Ende die Ergebnisse anzeigen lässt. Zeigt sich eine deutliche Linksverschiebung (hin zu den oberen Items) ist dies zumindest ein Hinweis. Mit statistischen Methoden lassen sich auch weitere Indizien dafür sammeln.

Bewertung: Geringes Problem!

Frage 7

Die meisten Items sind auch hier ok. Etwas problematisch ist das Item „Vorbilder innerhalb der Partei“ (denn ein Vorbild ist ja per se positiv besetzt. D.h. wenn einen ein Vorbild demotiviert, ist dies zumindest seltsam).

Komplett kaputt ist das Item „Sexistische, chauvinistische, rassistische, ableistische, homophobe, antisemitische … Äußerungen von anderen Parteimitgliedern (on- oder offline)“ – Im Gegensatz zu allen anderen Items sind es ausschliessich negative Items. D.h. eine positive Bewertung ist dabei nicht zu erwarten. Daneben sind sehr viele verschiedene Themen in das eine Item zusammengefasst – es ist so breit, dass quasi jeder von irgendwas davon schon einmal unangenehm betroffen war. Insb. die „…“ lassen an dieser gewollten Beliebigkeit und Interpretierbarkeit des Items keinen Zweifel. D.h. jedes andere Ergebnis, als eine Demotivierung durch diese Punkte wäre eine sehr große Überraschung.

Kurz zusammengefasst: Dieses Item ist unbrauchbar und kann höchsten dafür verwendet werden, zu prüfen ob jemand den Fragebogen ernsthaft ausfällt. Eine inhaltliche Auswertung würde m.E. die Glaubhaftigkeit der Auswerter stark reduzieren.

Bewertung: Für das genannte Item: Sehr großes Problem; Für den Rest: geringes/kein Problem

Fragen 10,11:

Die fehlende Änderbarkeit kann ein Problem sein. Ob es ein Problem ist, lässt sich nur schwer sagen, da unklar ist zu welchem Verhalten dies führt (mir ist mindestens ein Fall bekannt, der die Umfrage abgebrochen hat, nach einem Verklicken bei einer dieser Fragen). In jedem Fall sollte auf die Freitextfelder geachtet werden und im Zweifelsfall aus diesen Fragen nur mit Vorbehalt Schlüsse gezogen werden.

Bewertung: Unklar

Frage 13/14/19:

Die Frage lässt (bewusst?) offen, was mit Gleichberechtigung genau gemeint ist. Insb, der Nachsatz „Die Frage beschränkt sich nicht nur auf formale / rechtliche Rahmenbedingungen“ lässt viel Freiraum für Interpretationen. Für eine vage Gefühlserfassung kann die Frage dienen. Für weitere Interpretationen ist sie m.E. zu unpräzise.

Bewertung: Geringes Problem

Frage 15/20:

Ich werde immer als Mensch und meistens als Mann wahrgenommen. Was kreuze ich jetzt an? – Ok, ich kann mir anhand der Frage erschliessen, was eigentlich gefragt wird, nämlich wie sehr das Geschlecht in der Fremdwahrnehmung im Alltag eine Rolle spielt. Ob das Item in der Lage ist, diese Fragestellung zu beantworten kann ich nicht aussagen.

Bewertung: Unklar

Frage 22:

Die beiden „Nein“ Items passen nicht so richtig zur Frage. Insb .das Item „Nein, das gibt es in der Piratenpartei nicht“ müsste bei ehrlicher Beantwortung keine einzige Stimme bekommen, da niemand wissen kann ob es das gibt. Gefragt war aber nicht ob es das gibt, sondern ob man es mitbekommen hat. Die Frage ist ein klassischer Fall von tendentiös gestellter Frage.

Während man aus den „Ja“-Items durchaus eine Aussage treffen kann, sollte man die „Nein“-Items nicht weiter interpretieren.

Bewertung: Mittel

Frage 27:

„mit konkreten Massnahmen“ – Das Problem sehe ich hier darin, dass konkrete Massnahmen ein sehr unkonkreter Begriff ist. D.h. je nachdem wie man die konkreten Massnahmen für sich konkret interpretiert, wird man zu anderen Ergebnissen kommen. Die Wirkung kann sowohl positiv, als auch negativ sein. Insgesamt würde ich bei der Frage von einer Verzerrung der Antworten zu den Extrem ausgehen. Daneben impliziert die Frage, dass es ein Problem durch Sexismus gibt. (Das trifft zwar auch meine Meinung, sollte aber trotzdem nicht vorausgesetzt werden). Die Aussagekraft der Frage ist m.E. dadurch sehr niedrig.

Bewertung: Mittel bis problematisch

Frage 29:

Ich persönlich kann keine generelle Aussage ohne Informationen zur Ausgestalltung treffen. Die Frage ist dadurch nicht sinnlos (ich bin ja schliesslich nicht das Maß aller Dinge), aber man sollte erheben ob hier deutlich mehr Leute keine Antwort geben, als dies bei anderen Fragen der Fall ist. Dies würde ggf. die Aussagekraft der Frage einschränken. (bzw. auch wieder nicht, da man dies als „es kommt drauf an, wie sie ausgestaltet ist“ interpretieren könnte).

Irritiert hat mich zudem, dass diese Frage nur 3 Stufen hat (zu den sonst 5).

Bewertung: Geringes bis mittleres Problem

Frage 30 (32):

„absolut unwichtig“ -> Sowas gehört m.E. nicht ein Item. „sehr unwichtig“ wäre als Gegenstück zu „sehr wichtig“ passender gewesen. Auch dies ist eine (unnötige) Beeinflussung dieses Item nicht zu wählen.

Die Frage sollte auch nur unter Vorbehalt ausgewertet werden.

Bewertung: Geringes bis mittleres Problem

.

Insgesamt:

Die Umfrage enthält einige Probleme, aber nicht mehr als vergleichbare Umfragen. Richtig problematisch finde ich nur das eine Item in Frage 7. Daneben ist (gerade bei einem solchen Thema) natürlich die Frage der Selektionseffekte zu berücksichtigen. Insb. diejenigen, denen das Thema relativ egal ist, werden auch nicht an der Umfrage teilnehmen. Generalisierbarkeit ist also nur eingeschränkt gegeben.

Nachdem es die zweite Umfrage ist, lassen sich die identischen Fragen (sofern sie auch komplett identisch geblieben sind), sehr gut mit der vorigen Umfrage vergleichen. Dies selbst wenn die Fragen bei beiden Umfragen problematisch gestellt waren.

Meine Bewertung „die Umfrage ist nicht valide“ war nicht komplett falsch, aber mit Sicherheit überzogen. Ggf. wiederhole ich aber meine Kritik, wenn die Auswertung Artefakte, die durch die Fragestellung entstanden sein können, überinterpretiert.

So und nu gehe ich mal sicherheitshalber für ein paar Tage in Deckung;-)

Advertisements
Schreibe einen Kommentar

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s

%d Bloggern gefällt das: