Uchazeči z druhého termínu jednotných testů mohli být zvýhodněni proti těm z prvního
V letošní jednotné přijímací zkoušce na střední školy získali uchazeči ve druhém termínu více bodů než ti v prvním. Podobný, avšak nepravidelný vzorec byl patrný i v minulých letech. Jako nejpravděpodobnější příčina se jeví rozdílná obtížnost obou testů. Pak by ovšem došlo k zásadnímu znevýhodnění uchazečů, kteří se druhého termínu nezúčastnili.
V krajním případě je možné, že by se řada žáků a žaček nedostala na jimi vybranou školu ne kvůli horším znalostem a dovednostem, než mají ostatní, ale kvůli prosté chybě při vyhodnocování testu, která s jejich schopnostmi nijak nesouvisí. CERMAT má proto povinnost tyto pochybnosti jednoznačně rozptýlit s využitím relevantních dat.
Obory, které by si sami nevybrali
Jednotná přijímací zkouška na střední školy, kterou organizuje Centrum pro zjišťování výsledků vzdělávání (CERMAT), je každoročně terčem kritiky. Letos byla mediální smršť ještě silnější než obvykle, zřejmě kvůli populační vlně a s ní souvisejícímu očividnému nedostatku míst na maturitních oborech.
Testy z matematiky a českého jazyka jsou totiž klíčovou součástí přijímacího řízení a bez jejich úspěšného složení je prakticky nemožné dostat se na maturitní obor. Střední školy musí v přijímacím řízení přidělit testům minimálně 60% váhu, ze zbylých 40 procent mohou (ale nemusí) vzít v úvahu další informace, jako například známky ze základní školy, olympiády a podobně.
Mnoho škol však používá pouze testy CERMATu. Neúspěšní uchazeči mají sice hypotetickou šanci ve druhém kole či na základě odvolání, pravděpodobnost dodatečného přijetí je však malá a zpravidla je zavede na obory, které by si sami nevybrali.
Druhý termín absolvuje pravidelně přibližně o 10 tisíc uchazečů méně než první termín. Z části zřejmě proto, že druhou přihlášku podali na nematuritní obor, a přišli tak o nárok na jeden z pokusů. Za povšimnutí stojí, že zatímco v předchozích letech býval počet absolvovaných testů z češtiny a matematiky prakticky shodný, v roce 2023 absolvovalo test z matematiky více uchazečů než test z českého jazyka. Jde o ukrajinské děti, které nemusely skládat přijímací zkoušky z češtiny.
Kvalita testů je proto zcela klíčová. Většina kritiky tak míří k nepodstatným aspektům, případně viní testy z něčeho, za co nemohou. Klíčové nedostatky testů, které skutečně mají potenciálně negativní dopad na tisíce uchazečů, zůstávají mimo zorné pole veřejnosti a médií.
Je proto s podivem, že na tuto laickou kritiku reagují představitelé CERMATu rovněž laickými odpověďmi, místo toho, aby se opřeli o svá data, veřejnost edukovali a přínos svých testů podrobně vysvětlili.
Učivo a to, co zkouší CERMAT u přijímacích zkoušek, se překrývá jen částečně. Ničí to výuku, říká expert
Číst článek
CERMAT totiž nezveřejňuje žádné psychometrické analýzy. Jeho tak zvané signální zprávy obsahují jen základní deskriptivy a počty žáků, případně srovnání krajů a typů škol. Tyto kusé informace jsou bohužel zcela irelevantní pro posouzení toho, zda testy plní svůj účel. Je otázkou, zda potřebné analýzy vůbec existují a v jakém rozsahu. Pokud nikoli, odvádí CERMAT po psychometrické stránce velmi nekvalitní práci.
Naštěstí však CERMAT od roku 2017 zveřejňuje anonymizovaná položková data. Ta sice nejsou dostatečná a řada důležitých informací chybí (například údaje o pohlaví dětí, identifikátory škol, údaje o krajích či okresech a zejména pak není možné propojit děti napříč termíny a zkouškami), pro zcela hrubou informaci však postačují. Tato data jsou proto nezbytná pro veřejnou kontrolu toho, zda testy fungují tak, jak mají.
V pátek 12. května, poslední den povinné lhůty, CERMAT zveřejnil letošní data z obou řádných termínů. Když pomineme drobné nedostatky (jako například chybné názvy proměnných), mohou nám zodpovědět několik otázek.
V následujícím textu se zaměříme pouze na přijímací zkoušky na čtyřleté maturitní obory, které absolvuje zdaleka nejvíce uchazečů. Vynecháme rovněž „covidový“ rok 2020, kdy se konal jen jediný termín zkoušek.
V čem jsou testy dobré
Ve většině aspektů testy dopadly výborně – měří přesně, každý sám o sobě je férovým ukazatelem znalostí a dovedností daného žáka, neobsahují žádné očividně problematické položky. Například otázka číslo 21 z prvního termínu českého jazyka „Protože brochy neměly okna“, která byla letos hojně propírána v médiích, z hlediska parametrů funguje bez problémů. Správně ji zodpověděla zhruba polovina uchazečů, výrazně častěji pak ti, kteří odpovídali správněji i na ostatní položky (a naopak méně šikovní uchazeči odpovídali častěji špatně).
Reliabilita testu se navíc pohybovala přes 0,85 v češtině a přes 0,90 v matematice. Jde přitom o klíčový ukazatel, který posuzuje vliv náhody na výsledek testování. Může nabývat hodnoty od 0 do 1 a vyjadřuje relativní nepřítomnost chyby měření. Hodnoty blízké jedné znamenají, že náhoda má zanedbatelný vliv.
Naopak v případě reliability blížící se nule by výsledek v testu záležel pouze na náhodě (jako třeba hod kostkou). Hodnoty přes 0,85 či dokonce 0,90 jsou velmi dobré a ukazují, že CERMAT odvedl dobrou práci při tvorbě položek. Testy vytvářené přímo školami bez potřebného zázemí a dovedností by téměř jistě podobných parametrů nedosahovaly.
Pro skutečně adekvátní posouzení testu by samozřejmě bylo potřeba mít další informace. Test sice uchazeče seřadí férově a stabilně, nevíme však, nakolik jsou měřené znalosti a dovednosti vhodným ukazatelem schopnosti studovat na střední škole. To však těžko posoudit bez dalších informací.
Je nutné zdůraznit, že nestačí pouze posouzení obsahu testů tak, jak různí vzdělávací experti, učitelé i laici často dělají v médiích. Ačkoli je takové posouzení velmi důležité, vhodné by bylo také ověřit třeba i to, zda skóre v testu dobře predikuje budoucí studijní úspěchy. Taková analýza však zřejmě neexistuje, nebo přinejmenším není veřejně dostupná.
V čem CERMAT selhal
Potud se zdá být vše v pořádku. Podle ředitele Cermatu Miroslava Krejčího se však letos děti oproti loňskému roku zhoršily v matematice, zatímco v češtině dopadly stejně. Na vině jsou podle něj jednak těžší testy, jednak propad ve znalostech uchazečů. Jak jsem už psal jinde, informací o příčinách rozdílů CERMAT nedisponuje a výkon dětí není v žádném případě možné srovnávat napříč roky.
Je však možné jej srovnat alespoň napříč jednotlivými termíny té stejné přijímací zkoušky?
Jednotná přijímací zkouška se koná ve dvou řádných termínech. Letos šlo o čtvrtek 13. a pátek 14. dubna. Uchazeči smí podat dvě přihlášky a první termín absolvují na škole, kam poslali první přihlášku, druhý termín na škole druhé. Lepší výsledek se pak započítá na obě školy, bodové výsledky obou testů jsou přitom považovány za srovnatelné.
V minulých letech se za distribuci testů platilo osm milionů, nyní to bude asi dva a půl, věří šéf CERMAT
Číst článek
Možnost absolvovat test dvakrát je jistě výhodná, snižuje míru stresu a umožňuje „opravit“ si pokažený pokus. Bohužel ale statisticky znevýhodňuje uchazeče, kteří test absolvují jen jednou. Žádný test totiž neměří zcela přesně, výsledné skóre vždy obsahuje určitou chybovou složku.
Při jednom pokusu má uchazeč stejnou 50% pravděpodobnost, že test jeho znalosti „nadměří“ jako „podměří“. Pokud však test opakuje dvakrát a použije se lepší z obou výsledků, je pravděpodobnost „nadměření“ najednou 75 %. Uchazeči s více pokusy proto při stejné úrovni schopností nutně dosahují v průměru vyššího počtu bodů než uchazeči s jedním pokusem.
Nastavení přijímací zkoušky proto znevýhodňuje všechny žáky, kteří si jednu z přihlášek podali na nematuritní obor a testy tak mohou absolvovat pouze jednou. Z těchto důvodů by všichni uchazeči měli mít právo na dva termíny nehledě na to, zda se hlásí na jeden či dva maturitní obory.
Ještě výrazně větší ohrožení férovosti celého testování však představuje situace, kdy by jeden z termínů byl náročnější než ten druhý. V takovém případě by byli znevýhodněni uchazeči, kteří absolvovali pouze obtížnější test, nejenže by nemohli svůj výsledek opravit, ale na těžším termínu by navíc ještě získali v průměru méně bodů, než kolik by byli získali na termínu lehčím.
Zajištění plné srovnatelnosti obou zkouškových termínů je sice relativně jednoduché, CERMAT však žádné takové postupy nepublikuje, zřejmě je ani nerealizuje a srovnatelnost je z pohledu laické i odborné veřejnosti založena pouze na víře. Psychometrika a tvorba testů je však jako každá věda založena na důkazech. Pokud autor testu něco tvrdí, musí mít pro takové tvrzení potřebná data.
Termíny přijímaček se lišily
A jak tedy dopadli žáci v jednotlivých termínech? V letošním roce dosáhli ve druhém termínu v průměru více bodů: v českém jazyce o tři body, v matematice o tři a půl, dohromady o šest a půl bodu více.
To není málo, jde o relativně velký rozdíl odpovídající zhruba jedné třetině směrodatné odchylky. Navíc je srovnatelný či dokonce větší než rozdíly mezi posledními dvěma roky. Jinými slovy: pokud bychom vybrali náhodného uchazeče z druhého termínu, bude mít jak v češtině, tak v matematice s 60% pravděpodobností vyšší počet bodů než náhodný uchazeč z prvního termínu.
To, co se může zdát jako poměrně nepatrný rozdíl, výrazně vzroste v případě, kdy se hlásí (podobně jako letos) velké množství žáků a škola tak přijme jen malé procento všech uchazečů.
Představme si, že o přijetí na výběrovou střední školu rozhoduje pouze test z matematiky. Polovina uchazečů absolvuje první termín, polovina druhý termín. Škola může přijmout jen 14 % uchazečů, což v tomto případě odpovídá 32 bodům a více.
V takovém případě by třikrát více (74 %) uchazečů bylo přijato díky bodům ze druhého termínu, jen 26 % z prvního. Zdánlivě drobný rozdíl tak může mít naprosto zásadní vliv na pravděpodobnost přijetí. Uchazeči, kteří podali jen jedinou (první) přihlášku na maturitní obor, by měli pouze třetinovou šanci na přijetí ve srovnání s uchazeči, kteří se hlásí na dva maturitní obory.
1. termín | 2. termín | celkem | |||||
M | SD | r | M | SD | r | M | |
2017 | 29,51 | 9,01 | 0,868 | 27,95 | 7,66 | 0,814 | 30,00 |
2018 | 29,90 | 8,97 | 0,845 | 30,91 | 9,10 | 0,860 | 31,20 |
2019 | 27,65 | 9,30 | 0,872 | 29,87 | 9,15 | 0,874 | 29,55 |
2021 | 26,81 | 9,16 | 0,852 | 28,42 | 9,77 | 0,891 | 28,95 |
2022 | 26,57 | 9,92 | 0,877 | 27,40 | 9,15 | 0,863 | 27,85 |
2023 | 25,49 | 9,85 | 0,859 | 28,52 | 9,71 | 0,873 | 27,80 |
1. termín | 2. termín | celkem | |||||
M | SD | r | M | SD | r | M | |
2017 | 20,39 | 10,46 | 0,891 | 24,23 | 10,75 | 0,890 | 23,10 |
2018 | 16,72 | 9,23 | 0,871 | 16,92 | 9,47 | 0,884 | 17,95 |
2019 | 20,98 | 10,79 | 0,891 | 19,36 | 9,68 | 0,886 | 21,55 |
2021 | 19,16 | 11,09 | 0,910 | 21,36 | 10,94 | 0,925 | 21,60 |
2022 | 21,03 | 11,47 | 0,898 | 22,60 | 10,78 | 0,912 | 22,70 |
2023 | 17,35 | 10,79 | 0,919 | 20,77 | 10,77 | 0,909 | 19,95 |
Tabulka obsahuje informace o průměrném skóre (M) a jeho směrodatné odchylce (SD) pro oba termíny z matematiky. Kromě toho obsahuje i informace o „reliabilitě“ (r), tedy spolehlivosti či přesnosti testu. Reliabilita může nabývat hodnot v rozmezí 0–1. Hodnoty blízké nule znamenají vysokou míru chyby měření, hodnoty blízké jedné minimální. Hodnoty nad 0,9 lze považovat za velmi dobré. Reliabilita byla v tomto případě odhadnutá pomocí koeficientu ρglb. Kromě toho ve sloupci celkem je průměrný výsledek za oba termíny dohromady. Ten není sice patrný z dat, ale CERMAT jej zveřejňuje separátně. Výsledek je lepší než oba termíny (případně alespoň blízko lepšímu z termínů) právě z důvodu zvýhodnění uchazečů, kteří testy absolvují dvakrát.
Příčiny rozdílů napříč termíny
Klíčová otázka proto zní: co uvedený rozdíl obou termínů způsobuje? Existují tři možná vysvětlení. Představím je od nejméně pravděpodobného po nejpravděpodobnější.
První možnou příčinou je efekt zácviku či naopak důsledek stresu z prvního termínu. Je možné, že na prvním termínu žáci testovou situaci trochu natrénují, což vede k lepšímu výsledku druhý den.
Podobně je však také možné, že je první test naopak vystresuje a druhý den proto podají o trochu horší výkon. V každém případě by tento efekt měl být do jisté míry podobný jednak napříč roky, jednak pro češtinu i matematiku.
Jak vidíme ze srovnání, uchazeči skutečně mívají zpravidla o něco více bodů ve druhém termínu, efekt se však liší napříč roky a pro češtinu a matematiku. Například v roce 2017 měli na druhém termínu uchazeči více bodů z matematiky, avšak méně z češtiny, v roce 2019 byl vzorec právě opačný. První hypotéza je proto spíše nepravděpodobná.
Druhá možnost je, že druhý termín prostě absolvují šikovnější žáci. To by mohlo souviset s menším počtem uchazečů na druhém termínu (zhruba o 15 % s výjimkou roku 2021, kdy byl rozdíl jen pět procent).
Je možné, že nejlepší žáci si podávají obě přihlášky na maturitní obory, zatímco slabší žáci si častěji svou druhou, „záložní“ přihlášku podají na výuční obor, a na druhý z termínů tak nemají nárok. Tato hypotéza sice vypadá velmi věrohodně, proč však neplatila v češtině v roce 2017 a v matematice v roce 2019? Proč se velikost tohoto efektu liší v matematice a češtině a je rozdílná i napříč roky?
Dále by v takovém případě měl být rozdíl v počtu bodů mezi termíny menší v letech, kde byl menší i rozdíl v počtu uchazečů. Nic takového v datech není patrné.
Spolehlivější odpověď bychom mohli získat, pokud by CERMAT umožnil propojení dat uchazečů napříč termíny. V takovém případě bychom mohli srovnat výkon těch samých uchazečů a zjistit, zda se v průměru zlepšili či zhoršili. CERMAT však potřebná data nezveřejňuje a podobné analýzy, pokud je vůbec vytváří, před veřejností tají.
Třetí možnost je nejzávažnější: druhý termín prostě mohl být jednodušší. Pokud by to byla pravda, byli by zvýhodněni uchazeči, kteří absolvovali i druhý termín. Letos v průměru o šest a půl bodu. To je dost na to, aby to ovlivnilo přijetí či nepřijetí značné části všech žáků.
V takovém případě by CERMAT přímo poškodil těch zhruba deset tisíc žáků, žáků, z nichž se řada nedostala na vysněnou střední školu jen proto, že svou druhou přihlášku podali na nematuritní obor a na lehčí z testů neměli nárok. Je otázkou, kolik z nich skončilo jen těsně pod čarou a šest a půl bodu navíc ze společné části přijímací zkoušky by jim zajistilo přijetí.
Poškozen však mohl být úplně každý, třeba ti, kteří se v minulých letech spolehli na shodnou obtížnost testů a své naděje vložili do jednoho z nich, náhodou toho obtížnějšího.
Srovnání termínů z let 2022 a 2023. Na vodorovné ose je počet bodů, na svislé pak odpovídající percentil – tedy procento uchazečů s nižším počtem bodů. Například v roce 2023 v matematice měla polovina žáků na prvním termínu 15 a méně bodů. Na druhém termínu však 15 a méně bodů dosáhlo jen 35 % uchazečů, zbytek byl lepší.
CERMAT rozdíly neumí vysvětlit
Poměrně jednoduchou analýzou (založenou na takzvané teorii zobecnitelnosti) lze ukázat, že pokud by CERMAT vytvořil celou sadu položek a náhodně ji rozdělil mezi oba termíny, rozdíl v obtížnosti testů z matematiky i češtiny by byl téměř jistě menší než asi jedna třetina jednoho bodu. Tedy výrazně méně než rozdíly, které pozorujeme.
Zcela férově je proto nutné dodat, že rozdíl okolo tří bodů v obtížnosti obou termínů by byl velmi nepravděpodobný – nebýt toho, že se vzorec v rozdílech mezi prvním a druhým termínem liší napříč roky a testy.
Nevidím jiné vysvětlení, než že CERMAT přinejmenším do jisté míry nedokáže zajistit shodnou obtížnost testů, což ostatně jeho ředitel přiznal v případě rozdílů mezi roky. A pokud CERMAT neumí zajistit stejnou obtížnost napříč roky, jak mu můžeme věřit, že je obtížnost shodná v rámci jednoho roku? Rozdílná obtížnost testů proto s vysokou mírou jistoty způsobuje alespoň část pozorovaných rozdílů v průměrném výkonu uchazečů v jednotlivých termínech.
Jak jsem uvedl výše, tvorba testů je činnost založená na důkazech stejně jako výroba jakékoli jiného měřicího nástroje. Představte si situaci profesionálního řidiče, který si zakoupí nový vůz s vadným tachometrem, který při stejné rychlosti jízdy ukazuje nižší rychlost za deště než za suchého počasí.
V takové situaci by vám rozhodně nestačilo tvrzení, že je „všechno v pořádku“. Chtěli byste vidět nějakou certifikaci, ověření, že rychloměr měří vždy stejně. A pokud by řidič kvůli takové vadě překročil rychlost, přišel o řidičské oprávnění a své zaměstnání, asi by zcela oprávněně zvažoval žalobu na výrobce vozidla.
Situace u přijímacích testů je velmi podobná, jen v tomto případě může rozhodovat o konkrétním osudu žáků na desítky let dopředu. V případě CERMATu je navíc důkazní břemeno plně na jeho straně, bez jeho informací totiž nelze fungování testů ověřit.
Gazdík odvolal ředitelku Cermatu. Nelíbilo se mu fungování organizace a neefektivní hospodaření
Číst článek
Jaké postupy CERMAT zvolil pro to, aby nezvýhodnil uchazeče z druhého termínu? Jaké analýzy prokazují, že jsou oba termíny stejně obtížné? Proč se rozdíly prvních a druhých termínů liší napříč roky?
Pokud CERMAT tyto otázky nedokáže dostatečně věrohodně zodpovědět, jde o bezprecedentní porušení důvěry ve státní instituci a naprosto nevídané poškození uchazečů, kterým jeho testy uškodily. V takovém případě to už není záležitost chybně formulovaného zadání u jedné testové položky s minimálním dopadem na výsledky testování, ale systémové pochybení se zásadními politickými důsledky.
Nešťastné je na celé situaci i to, že část uchazečů (zhruba deset tisíc) pravděpodobně a poměrně logicky svou první přihlášku zaslala na vysněný maturitní obor. Druhou, záložní přihlášku, pak adresovala na obor výuční. Pokud by ti stejní žáci pouze prohodili obě přihlášky, své šance na přijetí by dramaticky zvýšili.
Je nutné si uvědomit, že vzhledem k povinnému charakteru testů neměly střední školy ani uchazeči žádnou možnost volby. Pokud stát něco přikazuje, měl by zajistit, aby jím uložená povinnost netrpěla zásadními vadami.
Přestože jsem zastáncem testování a přestože si stále myslím, že jednotné přijímací zkoušky garantované státem mohou být velmi přínosné, zvolená cesta působí velmi pochybným dojmem. Je smutné, že je kvůli nedostupnosti informací ze strany CERMATu nutné provádět podobné reverzní inženýrství, jako realizuji v tomto textu.
Zcela upřímně: pokud by mé dítě absolvovalo společnou přijímací zkoušku pouze v prvním termínu a skončilo by na maturitním oboru těsně pod čarou, zvažoval bych podání žaloby. Pokud totiž výše uvedené pochybnosti nerozptýlí CERMAT sám, jako instituce selhal a odpovědět by měl nezávislý soud.
Autor je výzkumník na Katedře psychologie a Institutu pro psychologický výzkum Fakulty sociálních studií Masarykovy univerzity. O data nutná k přesnější analýze požádal CERMAT podle zákona o svobodném přístupu k informacím, v současnosti čeká na odpověď.
Trump a jeho Baby boomers, nebo Musk?
Tereza Zavadilová
SOCDEM má novou šéfku. Překřičí Maláčová ANO?
Petr Fischer
Bagatelizace prezidentských žeber
Ondřej Konrád
Digitalizace bez dalšího plánu
David Klimeš