Montag, 13. August 2007

Zahlenspiele

Dem Eignungstest für medizinische Studien liegen einige Berechnungen und Normierungen zu Grunde, die für verschiedene Aspekte der Interpretation der Testergebnisse zweifellos notwendig sind, aber auch dazu beitragen, das Ergebnis zu vergröbern und auf einen griffigen Wert zu reduzieren. Das ist zwar der Sinn des Tests, aber Menschen lassen sich nicht auf einen Testwert vereinfachen, und wenn schon ein Durchschnittswert zur Zulassungsentscheidung notwendig ist, muss dieser möglichst exakt berechnet werden.

Zum Ersten wird aus einem Punktwert durch Umrechnung ein Testwert auf einer Skala mit normiertem Mittelwert 100 und Standardabweichung 10 errechnet. Das klingt gut und ist, wie auch in den Testberichten angeführt, zulässig - nicht, weil es sich um eine Normalverteilung handelt, sondern weil es eine lineare Operation ist und an der allentscheidenden Rangverteilung nichts ändert. Nichts? Das wäre der Fall, wenn die umgerechneten Testwerte verbatim (auf eine Nachkommastelle) verwendet würden, da dann jedem Punktwert ein gebrochener Testwert zufiele. Da jedoch ganzzahlig von einer Standardabweichung um 20 (für Österreich 2007 23.52) auf eine Verteilung mit nur 10 diskreten Werten in diesem Bereich umgerechnet wurde, wurden jedoch jeweils etwa zwei Werte auf einen Testwert zusammengefasst, die Auflösung ist also im kritischen Bereich plötzlich nur noch halb so hoch.

Wie der Testbericht auf S. 38 erläutert, ist das nicht von Belang, da zur weiteren Unterscheidung (es geht schliesslich um platzgenaue Zulassung) ein "mittlerer Rangwert" berechnet wird, der "mit dem Testwert mit -.991 [korreliert], was praktisch für eine Äquivalenz spricht". Vom Punktwert steht an dieser Stelle nichts mehr, denn den wollen die Testmacher möglichst schnell vergessen. Fazit bleibt aber: wer in einem Test eine deutlich höhere Punktezahl als alle anderen hat (niedriger Rangplatz), kann damit vor Personen gereiht werden, die ein bis zwei Punkte mehr beim Test erreicht haben.



Die zweite Quantelung erfolgt durch Zusammenfassung von Fragen zu einer standardisierten "ein-Punkt-Frage". Grundsätzlich gibt es auf dem Spielplatz "EMS" verschiedene Möglichkeiten, zu Punkten zu kommen: schneller Symbole anstreichen, aus einer Liste von Zahlen die richtige schätzen oder errechnen und jene, die aus Einzelfragen zusammengesetzt sind. Die Argumentation für solche Fragen ist üblicherweise, dass zusätzlich das logische Denken geschult würde, und die Punkte sind natürlich schwerer zu erlangen als bei 1-bit-Fragen. Bei fast allen Bereichen des EMS gibt es fünf Antwortmöglichkeiten, nicht so beim "Planen und Organisieren": hier sind jeweils zwei Entscheidungsfragen zu einer ein-Punkt-Frage zusammengesetzt, diese ist also sowohl vom informationstheoretischen Wert, als auch von der Komplexität her genau 2 Bit wert, die Wahrscheinlichkeit zur korrekten Beantwortung beträgt also ein Viertel. Das heisst aber: wenn genau die Hälfte der 1-Bit-Einzelfragen richtig beantwortet sind, wird im Durchschnitt ein Viertel der Gesamtpunktezahl dafür vergeben, ebenfalls wieder auf ganze Punkte (ca. 5 von 20) gequantelt. Sinngemäss trifft das gleiche mit gebrochenen Bitwerten (log(5)/log(2)=~2.3) auf die 5-Punkte-Fragen mit drei Einzelfragen und Kombinationen als Antwortmöglichkeiten (nur I, nur II, keines der drei, ...) zu.

Um bei dem Test möglichst viele Punkte zu erlangen, ist es (drittens) notwendig, auch tatsächlich bei allen Fragen eine Auswahlmöglichkeit auszuwählen. Anders gesagt ist es vorteilhaft, bei nicht bearbeiteten Fragen nach dem Zufallsprinzip eine auszuwählen, da es keine Negativpunkte gibt. Das wird nicht nur in der Test-Info erläutert, sondern (offenbar für jene, die sich die Vorbereitung gänzlich erspart haben) auch noch vor dem Test erwähnt. Wenn die Wertung von Mehr-Bit-Fragen oben jene bevorzugte, die einen sehr hohen Prozentsatz richtig beantworteten, gilt hier genau das Gegenteil: wenn bei allen Fragen geraten wird, bedingt das einen Erfolg von immerhin einem Fünftel der Punkte (beim Planen und Organisieren sogar ein Viertel - dass Mittelwert und Median 2006 bei 6.1 bzw 6.0 von 18, also nur knapp über einem Viertel lagen, spricht Bände über den Test, die ProbandInnen und das 2-Bit-Problem, leider ist eine Differenzierung dieser drei Themenkomplexe fast unmöglich). Das gilt für beinahe alle Tests ausser für das "konzentrierte und sorgfältige Arbeiten". Eine Person, die ungefähr den notwendigen Testwert erreicht hat, (ca 110 - 120) verdankt also etwa ein Sechstel davon dem Zufall; finding the exact distribution is left as an exercise to the reader.

Die genannten Einzeleffekte haben unterschiedliche Auswirkungen auf das Testergebnis, manche mögen argumentieren, dass etwa der 2-Bit-Effekt nur jene trifft, die ohnehin im unteren Punktebereich angesiedelt sind und daher von vorneherein keine Chancen auf Zulassung haben. Das ist mitnichten der Fall, da einerseits die Zulassungskriterien in den unterschiedlichen Kontingenten und an verschiedenen Unis nicht gleich sind und andererseits die Testleistungen jeder Person in den einzelnen Untertests verschieden - ein grosser stochastischer Effekt zum Beispiel beim Planen und Organisieren kann das Ergebnis bei hohen Ergebnissen in anderen Bereichen nachhaltig beeinflussen.

Um also den Test etwas transparenter und gerechter zu machen, wären folgende Massnahmen möglich:
  • gebrochene Testwerte bzw. eine Berechnung des Prozentrangs aus dem Punktwert anstatt aus dem Testwert, um die nicht nachvollziehbare Komprimierung des Wertebereichs zu verhindern
  • Einzelfragen anstatt kombinierter Fragen - das würde sowohl die Signifikanz der Fragestellung als auch die genauere Bewertung erlauben und
  • Vergabe von Negativpunkten bei falschen Antworten - damit fallen weniger der wertvollen Punkte dem Zufall zu und die aufrechte und korrekte [nicht-]Beantwortung einer Frage bringt 0 Punkte anstatt der (de facto) -0.2 bis -0.25, die es kostet, nicht zu raten. Auch ist damit leichter nachvollziehbar, welche Fragen missverständlich waren (NB: es gibt laut Testbericht tatsächlich Fragen, welche von weniger als 20 % der Teilnehmenden korrekt beantwortet wurden. Ist das Dummheit (weil einige nicht Roulette spielten oder vorzeitig ausschieden), eine absichtlich missverständlich gestellte (Fang-)Frage oder wurde hier eine falsche Antwort als richtig gewertet?)).

Donnerstag, 9. August 2007

EMS: einige müßige Statistiken

Über die soziologischen Implikationen des Testergebnisses wurde an anderer Stelle schon ausgiebig diskutiert, aber auch statistisch lässt das Ergebnis einige Fragen offen: aus welchen Gründen und unter welchen Umständen traten weibliche und männliche KandidatInnen an - die Untersuchung von Prof. Christiane Spiel scheint sich ja vor allem um die schulische Vorbildung zu kümmern, und nicht zuletzt: was bedingt die so unterschiedlichen Verteilungsparameter?

Denn wenn die Mittelwerte im unten angeführten derStandard-Artikel korrekt sind (96.5 f vs 101.4 m) und die Standardabweichung halbwegs gleich wäre, würden in Wien nicht 41.5, sondern etwa 49 Prozent Frauen zugelassen. Um den extremen Unterschied zu erklären, muss auch die Standardabweichung sehr unterschiedlich sein, nämlich ca 16 bei den Frauen, 27 bei den Männern. Anders gesagt: die Verteilungsfunktion, soferne sie wie behauptet einer Normalverteilung im entferntesten entspricht, ist bei den männlichen Teilnehmern sehr viel flacher (grössere Streuung um den Durchschnittswert):



Allerdings sind mir auch die Mittelwerte nicht ganz geheuer: im "detaillierten Testergebnis" wird m=96.23 und s=23.52 angegeben, was niedriger als die Werte für jedes der Einzelkollektive ist. Sollten da etwa die abgebrochenen Tests noch nicht herausgerechnet sein? Eine statistische Bewertung erschiene dann umso zweifelhafter ... Die Ergebnisse der einzelnen Länder sind ja angeblich nicht vergleichbar, das kann es also auch nicht sein.

Links:
Der Standard Diskussion um Benachteiligung von Frauen bei Aufnahmetests - verwirrende Zahlen über die Genderverteilung der Resultate
Der Standard Lostag in Wien, Graz und Innsbruck - Antrittszahlen 6. 7. 2007
Der Standard Hahn lässt schlechte Frauen-Quote prüfen

Dienstag, 10. Juli 2007

Eignungstest 6. 7. 2007

Seit der Einführung im Vorjahr ist der Eignungstest für medizinische Studien (EMS) auch in Österreich berüchtigt: es treten etwa vier Mal so viele KandidatInnen an, wie es Studienplätze gibt, gemäß der angefochtenen Quote bekommen im Durchschnitt etwa jedEr dritte antretende ÖsterreicherIn (36 %) und jedEr 6. EU-BürgerIn (16 %) einen Studienplatz, das sollte bei einer gleichen Testantrittsquote von 74 % und einem gegenueber 2006 vermutlich leicht angestiegenen Mittelwert einen Grenzpunktwert von ca 110 bzw 123 bedingen - falls nicht gerade jene die Teilnahme doch absagten, die ohnehin unter der magischen Perzentile geblieben wären.

Quellen:
Antrittszahlen
Anmeldezahlen, Studienplätze nach Ländern
Bericht über die Testdurchführung 2006 (erstmals CH,D,A) - Testwert 2006 (für 2007 mit 103 um 0.6 höher angenommen)