Zum Ersten wird aus einem Punktwert durch Umrechnung ein Testwert auf einer Skala mit normiertem Mittelwert 100 und Standardabweichung 10 errechnet. Das klingt gut und ist, wie auch in den Testberichten angeführt, zulässig - nicht, weil es sich um eine Normalverteilung handelt, sondern weil es eine lineare Operation ist und an der allentscheidenden Rangverteilung nichts ändert. Nichts? Das wäre der Fall, wenn die umgerechneten Testwerte verbatim (auf eine Nachkommastelle) verwendet würden, da dann jedem Punktwert ein gebrochener Testwert zufiele. Da jedoch ganzzahlig von einer Standardabweichung um 20 (für Österreich 2007 23.52) auf eine Verteilung mit nur 10 diskreten Werten in diesem Bereich umgerechnet wurde, wurden jedoch jeweils etwa zwei Werte auf einen Testwert zusammengefasst, die Auflösung ist also im kritischen Bereich plötzlich nur noch halb so hoch.
Wie der Testbericht auf S. 38 erläutert, ist das nicht von Belang, da zur weiteren Unterscheidung (es geht schliesslich um platzgenaue Zulassung) ein "mittlerer Rangwert" berechnet wird, der "mit dem Testwert mit -.991 [korreliert], was praktisch für eine Äquivalenz spricht". Vom Punktwert steht an dieser Stelle nichts mehr, denn den wollen die Testmacher möglichst schnell vergessen. Fazit bleibt aber: wer in einem Test eine deutlich höhere Punktezahl als alle anderen hat (niedriger Rangplatz), kann damit vor Personen gereiht werden, die ein bis zwei Punkte mehr beim Test erreicht haben.
Die zweite Quantelung erfolgt durch Zusammenfassung von Fragen zu einer standardisierten "ein-Punkt-Frage". Grundsätzlich gibt es auf dem Spielplatz "EMS" verschiedene Möglichkeiten, zu Punkten zu kommen: schneller Symbole anstreichen, aus einer Liste von Zahlen die richtige schätzen oder errechnen und jene, die aus Einzelfragen zusammengesetzt sind. Die Argumentation für solche Fragen ist üblicherweise, dass zusätzlich das logische Denken geschult würde, und die Punkte sind natürlich schwerer zu erlangen als bei 1-bit-Fragen. Bei fast allen Bereichen des EMS gibt es fünf Antwortmöglichkeiten, nicht so beim "Planen und Organisieren": hier sind jeweils zwei Entscheidungsfragen zu einer ein-Punkt-Frage zusammengesetzt, diese ist also sowohl vom informationstheoretischen Wert, als auch von der Komplexität her genau 2 Bit wert, die Wahrscheinlichkeit zur korrekten Beantwortung beträgt also ein Viertel. Das heisst aber: wenn genau die Hälfte der 1-Bit-Einzelfragen richtig beantwortet sind, wird im Durchschnitt ein Viertel der Gesamtpunktezahl dafür vergeben, ebenfalls wieder auf ganze Punkte (ca. 5 von 20) gequantelt. Sinngemäss trifft das gleiche mit gebrochenen Bitwerten (log(5)/log(2)=~2.3) auf die 5-Punkte-Fragen mit drei Einzelfragen und Kombinationen als Antwortmöglichkeiten (nur I, nur II, keines der drei, ...) zu.
Um bei dem Test möglichst viele Punkte zu erlangen, ist es (drittens) notwendig, auch tatsächlich bei allen Fragen eine Auswahlmöglichkeit auszuwählen. Anders gesagt ist es vorteilhaft, bei nicht bearbeiteten Fragen nach dem Zufallsprinzip eine auszuwählen, da es keine Negativpunkte gibt. Das wird nicht nur in der Test-Info erläutert, sondern (offenbar für jene, die sich die Vorbereitung gänzlich erspart haben) auch noch vor dem Test erwähnt. Wenn die Wertung von Mehr-Bit-Fragen oben jene bevorzugte, die einen sehr hohen Prozentsatz richtig beantworteten, gilt hier genau das Gegenteil: wenn bei allen Fragen geraten wird, bedingt das einen Erfolg von immerhin einem Fünftel der Punkte (beim Planen und Organisieren sogar ein Viertel - dass Mittelwert und Median 2006 bei 6.1 bzw 6.0 von 18, also nur knapp über einem Viertel lagen, spricht Bände über den Test, die ProbandInnen und das 2-Bit-Problem, leider ist eine Differenzierung dieser drei Themenkomplexe fast unmöglich). Das gilt für beinahe alle Tests ausser für das "konzentrierte und sorgfältige Arbeiten". Eine Person, die ungefähr den notwendigen Testwert erreicht hat, (ca 110 - 120) verdankt also etwa ein Sechstel davon dem Zufall; finding the exact distribution is left as an exercise to the reader.
Die genannten Einzeleffekte haben unterschiedliche Auswirkungen auf das Testergebnis, manche mögen argumentieren, dass etwa der 2-Bit-Effekt nur jene trifft, die ohnehin im unteren Punktebereich angesiedelt sind und daher von vorneherein keine Chancen auf Zulassung haben. Das ist mitnichten der Fall, da einerseits die Zulassungskriterien in den unterschiedlichen Kontingenten und an verschiedenen Unis nicht gleich sind und andererseits die Testleistungen jeder Person in den einzelnen Untertests verschieden - ein grosser stochastischer Effekt zum Beispiel beim Planen und Organisieren kann das Ergebnis bei hohen Ergebnissen in anderen Bereichen nachhaltig beeinflussen.
Um also den Test etwas transparenter und gerechter zu machen, wären folgende Massnahmen möglich:
- gebrochene Testwerte bzw. eine Berechnung des Prozentrangs aus dem Punktwert anstatt aus dem Testwert, um die nicht nachvollziehbare Komprimierung des Wertebereichs zu verhindern
- Einzelfragen anstatt kombinierter Fragen - das würde sowohl die Signifikanz der Fragestellung als auch die genauere Bewertung erlauben und
- Vergabe von Negativpunkten bei falschen Antworten - damit fallen weniger der wertvollen Punkte dem Zufall zu und die aufrechte und korrekte [nicht-]Beantwortung einer Frage bringt 0 Punkte anstatt der (de facto) -0.2 bis -0.25, die es kostet, nicht zu raten. Auch ist damit leichter nachvollziehbar, welche Fragen missverständlich waren (NB: es gibt laut Testbericht tatsächlich Fragen, welche von weniger als 20 % der Teilnehmenden korrekt beantwortet wurden. Ist das Dummheit (weil einige nicht Roulette spielten oder vorzeitig ausschieden), eine absichtlich missverständlich gestellte (Fang-)Frage oder wurde hier eine falsche Antwort als richtig gewertet?)).