Donnerstag, 7. April 2011

Zensus 2011 - Warum freiwillige Datenerhebungen nichts nützen

Da es immer wieder Fragen dazu gibt, möchte ich das Dilemma der Statistiker versuchen vereinfacht darzustellen. Ein Statistiker möchte bestimmte Aussagen treffen können, zB. wieviele alleinerziehende Frauen gibt es in Deutschland. Und sind diese eher gut ausgebildet oder eher schlecht.

Wenn ein Statistiker diese Frage mit einer bestimmten Sicherheit beantworten will, muß aus der Gesamtheit der Haushalte in Deutschland zufällig eine Gruppe von Haushalten bestimmen, und diese einen Fragebogen ausfüllen lassen.

Je nachdem, wie sicher er diese Fragen beantworten können soll, braucht er eine bestimmte Anzahl von Haushalten. Jedem wird einleuchten, daß zwei Fragebögen vermutlich nicht ausreichen, diese Frage sicher zu beantworten. Und mit 20 Fragebögen wird man auch noch keine sichere Ausgabe treffen wollen. Die Statistiker haben das alles genau untersucht und wissen schon, welche Mindestzahl an Fragebögen für eine spezielle Fragestellung zu beantworten sind.

Nun haben wir implizit schon mehrere Probleme genannt, vor dem der Statistiker steht. Erstens, nicht jeder Haushalt ist ein Haushalt mit Kindern unter 18 Jahre. Und nicht jeder Haushalt mit Kindern besteht aus weiblichen Alleinerziehenden. Der Statistiker hat aber einige Erfahrungswerte und kann  von daher ausgehen, daß geschätzt (die Zahl ist jetzt nur ein Beispiel und in der Realität vielleicht anders) jeder sechste Haushalt einer mit Alleinerziehenden ist. Er hat vielleicht auch in seinen Schätzungen, daß 9 von 10 dieser Haushalte einen weiblichen Vorstand haben. Er wird also auf 1000 befragte Haushalte vermutlich nur 1000 * 9 / (10*6) = 150 solcher  Haushalte finden. Da seine Schätzungen ja alle auf alten Daten beruhen, muß er mit Schwankungen nach oben und unten rechnen, im besten (für ihn schlimmsten Fall) ist die Zahl der Alleinerziehenden in den letzten Jahren zurückgegangen und er wird vielleicht nur 100 solcher Haushalte finden.

Nun kommt aber noch ein weiteres Problem hinzu. Nicht jeder Haushalt wird auf seinen Fragebogen antworten und wenn darauf geantwortet wird, dann sind die Angaben vielleicht nicht richtig. Gut, er kann jetzt über die Rücklaufquote vorangegangener Studien auch wieder schätzen, daß ca. 2/3 der Fragebögen zurückkommt. Er wird also von 1000 befragten Haushalten nur 666 Antworten zurückbekommen und dort nur 100 Haushalte mit weiblichen Alleinerziehenden.

Bis jetzt hat aber unser Statistiker noch nicht herausgefunden, ob die Alleinerziehenden nun eher einen höheren Abschluss oder eine niedrig qualifizierende Ausbildung gehabt haben. Unterstellen wir, daß 20% dieser in Wahrheit  studiert haben und 60% einen Facharbeiter und 20% keine Ausbildung haben.

Jetzt kommen wir zu einer interessanten Fragestellung. Was passiert, wenn von den studierten (20 von 1000 befragten Haushalten) Frauen (unterstellt) alle diesen Befragungen eher kritisch sehen und einfach nicht antworten würden? Wenn dann noch die Frauen, die keinen Abschluss haben, vielleicht aus Schamgefühl oder sonstigen Gründen, bei der Befragung falsche Angaben machen und diese daher nur zur Hälfte wahrheitsgemäß antworten würden?

Wir würden als Statistiker die Antwort bekommen, daß alleinerziehende Frauen keinen Hochschulabschluss hätten (diese hatten ja nicht geantwortet), 70 von 80, also 87,5%  einen Facharbeiter und nur 12,5% keinen Abschluss hätten.

Die wahre Antwort wäre aber eigentlich gewesen, 20% der alleinerziehenden Frauen haben studiert, 60% hatten einen Facharbeiter und 20% haben keinen Abschluss.

Wenn der Statistiker also korrekte Antworten bekommen möchte, hat er nicht viele Möglichkeiten. Eine Möglichkeit wäre Anreize für das korrekte Beantworten zu setzen. Dies ist aber wieder problematisch, da er vielleicht die eine oder andere Gruppe bevorzugt. Wenn er zum Beispiel für die Beantwortung Geld als Anreiz einsetzt, kann es sein, daß er die Bemühungen derjenigen Frauen verstärkt, an der Studie teilzunehmen, die vielleicht besonders auf das Geld angewiesen sind und das wären vermutlich nicht die Alleinerziehenden, die einen hohen Abschluss haben.

Eine andere Möglichkeit wäre, herauszufinden, zum Beispiel über andere Quellen, wie Arbeitsagenturen, welche Haushalte ein niedriges Einkommen haben und diesen Anteil stärker herauszurechnen. Oder, last but not least, er bittet Politiker sein Dilemma zu lösen, in dem diese jeden zur Beantwortung dieser statistischen Erhebungen gesetzlich  verpflichten und ihm als Statistiker die Möglichkeit zu geben, die Plausibilität der Daten durch Zusammenführung von verschiedenen Quellen zu überprüfen.

Übrigens gibt es für unseren Beispielstatistiker noch ein ganz anderes Problem, das ist der Befragungszeitraum. Sagen wir dieser dauert ein viertel Jahr, dann können die Daten der Befragten in den drei Monaten bereits falsch sein, weil einige umgezogen sind, nun mit einem Partner zusammenleben, verstorben sind oder die Kinder weggeben oder diese volljährig geworden sind, usw. usf. Je länger also die Befragung dauert, desto unzuverlässiger wird die Datenbasis.

Was ich versucht habe, ist die Herausforderungen eines Statistikers darzustellen. Vielleicht hilft es zu verstehen, daß das Anliegen Volkszählung zumindest von dieser Seite eine gewissen Berechtigung hat und zumindest die Gegenargumentation, "dann sollen die doch die Befragung auf Freiwilligen-Basis machen" nur von Unkenntnis zeugt.

Nicht das man mich falsch versteht, ich finde der Zensus ist zu kritisieren. Aber die Argumentationslinie muß woanders laufen: Wer hat die Fragestellungen festgelegt bzw. zu verantworten? Wie sieht es mit der Anonymisierung aus? Brauchen wir die Antworten der Statistiker wirklich in dem Umfang? Wieso wird die Volkszählung nicht öffentlich diskutiert und wieso wissen die Bürger nichts von dem, was auf sie zukommt? Wie sieht es mit der Verhältnismäßigkeit aus? Welche Daten/Fragen sind sensibel? Was haben wir aus den Erfahrungen mit dem Dritten Reich gelernt?