Diskuse kolem přijímacích testů na americké vysoké školy, takzvaných SAT, v posledních letech ukazuje, jak může být plošné testování zrádné. Ukazuje se například, že vysoký podíl rozdílů ve výsledcích amerických testů předvídají rodinné příjmy, vzdělání rodičů a etnicita studentů. Podíl takto vysvětlených rozdílů se navíc od roku 1998 takřka zdvojnásobil a otevírá se diskuse o tom, co takové testy vlastně měří.

V důsledku toho ve Spojených státech přibývá univerzit, které nechtějí přispívat k prohlubování sociálních nerovností a odklánějí se od používání standardizovaných testů v přijímacím řízení.

O autorovi MSc. Jiří Münich je analytik pro organizace EDUin a Člověk v tísni, zabývá se vzděláváním. Vystudoval interdisciplinární společenské vědy a následně metodologii pro psychologický výzkum na Amsterdamské univerzitě. Na univerzitě působil i jako vedoucí seminářů ke statistice a výzkumným metodám.

Za oceánem jsou ostatně na toto téma citliví i kvůli minulosti. Na začátku minulého století byly v USA kulturně zaujaté testy inteligence brány jako vědecké podklady pro závěry o nadřazenosti nordické rasy nad Slovany nebo černochy. Rádoby objektivní měření tak bylo použito k podpoře pochybných pozic na základě nesprávných závěrů.

Výzkumný tým okolo Daniela Müggeho z Amsterdamské univerzity právě taková témata otevírá. Jejich oborem je politická aritmetika, snaha prozkoumat, kde se vlastně berou naměřené ukazatele, se kterými se ve veřejném diskurzu dále pracuje jako s objektivními hodnotami. Kdo a jak tvoří datovou realitu, na kterou se odvoláváme při formování veřejné politiky.

Pro vysvětlení: metody měření, sběru dat nebo výpočtu indikátorů v politické diskusi zpravidla hrají minimální roli. Občas se v tomhle kontextu mluví o HDP, kde se občas zmiňuje jeho omezená vypovídající hodnota, ale to je čestná výjimka. Kritika je navíc zpravidla technická a netýká se toho, jaké dopady má ta nebo ona metoda výpočtu na politické fungování systému, ani se nekladou otázky, jak a proč se rozhodlo, že prosperita země se bude měřit právě takovým způsobem.

Mügge a jeho tým ve své práci ukazují, že makroekonomické indikátory, jako je míra inflace, růst HDP nebo nezaměstnanost, se v praxi počítají nejrůznějšími způsoby a že samotná metoda zpracování dat do určité míry utváří realitu, na základě které občané i vlády států rozhodují o svých dalších osudech.

U českých státních maturit se diskutuje – pokud se vůbec diskutuje – o technických parametrech. Rád bych zmínil několik možných témat, která by diskusi rozšířila i o rozměr politický. Žertovně bych je nazval tématy politické psychometrie.

Mihály Zichy: Reading. Young man | Zdroj: Wikimedia Commons (Public domain) | CC0 Public domain

Otázky technické a politické

Technické rozměry měření jsou takové, ve kterých je již jasně stanovený problém. Pro tento problém existují řešení, která se dají celkem objektivně ohodnotit podle své vhodnosti. Cermat například může chtít prokázat, že výkon v didaktickém testu z matematiky odráží výhradně matematickou dovednost a jiné faktory do něj nevstupují. Jde o technický problém: ukázat, že test se nedělí do podskupin vzájemně podobnějších otázek, podle toho, jak na ně studenti odpovídají. A tady můžeme objektivně říct, že ukazatel, kterým Cermat vyhodnocuje kvalitu svých testů – takzvané Cronbachovo alfa, indikující vnitřní konzistentnost odpovědí – je špatná volba, nějaká forma faktorové analýzy by byla lepší.

Tehdy je transparentnost důležitá především z důvodů dohledu nad kvalitou. Odborná i laická veřejnost by měly mít možnost ptát se, zda po technické stránce dělá Cermat dobrou práci, a ověřit, jak vážně lze brát jejich výsledky.

Politické rozměry naopak zahrnují otázky, ve kterých je třeba rozhodnout mezi několika alternativami bez jednoznačného kritéria správnosti. Nejsou definována jednoznačností cílů a vhodností prostředků, ale naopak jejich neurčitostí. Dokonce i ve zdánlivě technické oblasti, jakou je statistická analýza dat, existují situace, v nichž musí výzkumník udělat rozhodnutí mezi alternativami, které mají svá pro i proti, a žádný manuál mu s takovou volbou neporadí. Ve chvíli, kdy taková rozhodnutí již nedělají jednotlivci, nýbrž instituce, se dostává do hry i otázka moci.

„Než začneme vyvíjet test a hodnotit jeho technické aspekty, musíme se dohodnout na tom, k čemu má sloužit. Neexistuje technická metoda, která by takové rozhodnutí udělala za nás.“

Pro ilustraci takových témat lze ukázat příklady vcelku přímočaré, ale i otázky, které jsou na první pohled velmi abstraktní, ovšem o to naléhavějších dopadů se mohou týkat. Například účel maturitního zkoušení nebo spravedlivost testů patří mezi ty snadno uchopitelné oblasti, kde Cermat svou praxí dělá politická rozhodnutí.

Účel maturitního zkoušení

Než začneme vyvíjet test a hodnotit jeho technické aspekty, musíme se dohodnout na tom, k čemu má test sloužit. Cíle se mohou vztahovat k politickým a etickým školám, ale neexistuje technická metoda, která by takové rozhodnutí udělala za nás.

Maturitní zkouška v současnosti rozhoduje o možnosti výkonu řady povolání nebo možnosti studia na vysoké škole. U některých vysokých škol pak může být úspěšnost v maturitní zkoušce výhodou při přijímacím řízení, pro studenty aspirující na zahraniční studium může být někdy známka z maturitní zkoušky důležitá i jako vstupní podmínka. Ještě větší roli hrají v tomto ohledu přijímací zkoušky. Na základě toho, jak v relativně nízkém věku roztřídí žáky, se rozhoduje o tom, jaké podmínky k dalšímu růstu kdo z nich dostane.

V druhé řadě je ale používána i jako indikátor kvality vzdělávací soustavy. Společně s jednotnou přijímací zkouškou se jedná o jediné měření podobného rozsahu v republice, které – na rozdíl od mezinárodních šetření jako PISA – pokrývá všechny její regiony. Nadto se ale o maturitní zkoušce často hovoří jako o motivačním nástroji, jehož účelem je vytvořit silnou pobídku pro žáky a učitele ke zpracování témat zahrnutých v kurikulu.

Ministerstvo školství může mít vlastní představu o tom, k čemu má maturitní nebo přijímací zkouška sloužit. Ať chceme nebo ne, jakémukoliv předepsanému plánu ale dá konkrétní podobu až jeho realizace, a tedy instituce, které je za ni zodpovědná. Výsledek se potom s původním úmyslem může více či méně rozcházet. To, jakým způsobem Cermat realizuje maturitní zkoušku – včetně psychometrických aspektů – určuje, jak a které cíle zkouška naplňuje.

Například u výběru úloh je třeba mít na mysli, jak bude test fungovat jako celek. Má uspokojivě pokrýt celou škálu dovedností od nejnižší až po nejvyšší, nebo být zejména precizní ve specifické úrovni obtížnosti – tedy odlišit studenty s minimálními kompetencemi a bez nich? Jedno bude vždy na úkor druhého a konstruktér testu nakonec musí rozhodnout, kterou funkci má test plnit.

„Dva maturanti s podobnou dovedností by měli mít šanci získat podobné bodové ohodnocení, bez ohledu na to, zda jsou různého pohlaví, odlišné barvy kůže, nebo mají jinak bohaté rodiče.“

Podobný vliv má Cermat i na podobu realizace kurikula. Například bodové vážení a výběr úloh může určovat priority ve výuce, formát úloh zase může určovat, jakou roli hraje v přípravě dril a jaké chápání látky. Především pak při absenci transparentního procesu validace úloh není možné posoudit, zda způsob testování skutečně bude měřit cíle vytyčené ve schváleném kurikulu. Z testovacího centra se tak stává nezávislý aktér formující státní vzdělávací politiku.

Z těchto důvodů je důležité vědět, jak funguje validační proces, jak se rozhoduje o formátu úloh a jakými způsoby je ověřován jejich soulad se stanovenými cíli vzdělávací politiky.

Spravedlivost testu

Test by neměl být systematicky zaujatý proti žádné skupině studentů. Dva maturanti s podobnou dovedností by měli mít šanci získat podobné bodové ohodnocení, bez ohledu na to, zda jsou různého pohlaví, odlišné barvy kůže nebo mají jinak bohaté rodiče. Nikdo určitě nezpochybňuje, že kontrola kvality testů by měla ověřovat i absenci zaujatosti úloh. Ale jelikož není možné testovat pro všechny druhy zaujetí ani vytvořit perfektně spravedlivý test, musí existovat výběr skupin, pro které se spravedlivost měření ověřovat bude, a hranice maximální přijatelné zaujatosti, pod kterou se již nerovnost řešit nebude.

Obzvlášť téma nerovnosti vyžaduje transparentnost ze strany testujícího. Cermat je totiž proti testovaným v asymetrickém mocenském postavení. Bez dostupnosti dat a dokumentace psychometrických kritérií záleží pouze na rozhodnutí Cermatu, zda bude rozdíl ve výsledcích žáků vnímán jako odraz jejich dovedností, nebo zaujatosti testu. V takové situaci má celkem zjevnou motivaci tlačit interpretaci proti žákovi, kterému pak nezbývá než dovolání.

Lawrence Alma-Tadema: Education of the Children of Clovis | Zdroj: Wikimedia Commons (Public domain) | CC0 Public domain,©

Předpoklady o prediktivní validitě testů

Základní psychometrická analýza testů může ukázat přesnost testů v měření dovednosti. Představme si, že sestavíme test, který je přesný, a zároveň skutečně odráží deklarované dovednosti. Chceme-li dál nakládat s jeho výsledky, musíme ale stále udělat řadu tichých předpokladů:

Technokrat, který by rád použil maturitní měření k optimalizaci přístupu ke vzdělávání, musí předpokládat, že úroveň dovednosti v osmnácti letech předvídá i další úspěšnost ve vysokoškolském studiu.

Meritokrat, který by rád odměnil pracovité žáky, zase musí věřit, že naměřená dovednost je výsledkem píle a neodráží například sociální kontext, ve kterém žák vyrostl.

Evaluátor, který by na základě výsledků rád identifikoval kvalitní školy, tiše očekává, že dovednost měřená testem je solidním indikátorem i pro další rozměry kvality škol.

Všechny takové předpoklady by byly z větší míry nepodložené, protože je nikdo nezkoumá. Technokrat by například musel porovnávat výsledky maturitních zkoušek s pravděpodobností úspěšného zakončení vysokoškolského studia, jeho prodlužování, možná i s nějakým indikátorem přidané hodnoty studia pro maturanta.

Meritokrat by zase musel zkoumat, nakolik jsou jiné faktory než píle příčinami studijního úspěchu. Možná by se i musel podívat na změnu dovednosti žáka mezi zahájením a zakončením středoškolského studia, aby zjistil, jakého zlepšení ten který žák dosáhl. A evaluátor by zase měl zkontrolovat, zda jdou výsledky v matematice ruku v ruce se socializační rolí školy, protože pokud ne, nemohou být pro hodnocení škol dostačujícím indikátorem.

Empirický výzkum takového druhu se u nás nedělá. S podobnými předpoklady se ovšem pracuje neustále. Někde pochopitelně musí existovat hranice, za kterou už nezkoumáme a předpokládat musíme. Někdo tuto hranici nastavuje a někdo určuje, jaké předpoklady budou platné, a jaké ne. Nemusí to být ani konkrétní osoba nebo komise. Stačí i veřejný diskurz, ve kterém se třeba s přesvědčením, že u každého žáka existuje stabilní předpoklad pro některé obory, nakládá jako se samozřejmostí (například věta „někteří žáci prostě na matematiku nemají“).

Tehdy vstupuje do interpretace výsledků zkoušek moc. Pokud například Cermat hovoří o vypovídající hodnotě testů a opírá se přitom o autoritu neznámých odborníků a tajných jednání komisí, neexistuje jiný způsob, jak ho rozporovat, než šířením podobně nepodložených tvrzení. Pokud akademici nemají přístup k maturitním datům a nemohou zavedené pravdy vystavovat empirickému testování, přežijí předpoklady těch, kteří mají moc je v diskusi prosadit. Transparentnost a přístup k datům mohou takovému sporu zabránit, protože autoritu komisních křesel nahrazují podloženou diskusí.

Meziroční srovnatelnost testů a implicitní praxe

Některých stavů je možné dosáhnout aktivní snahou, jindy ale může praxe instituce vzniknout pozvolným procesem, o kterém vlastně nikdo ze zúčastněných aktérů ani nepřemýšlí, jen se na něm rutinní prací neustále podílí.

Představme si následující situaci. V modelové Republice se na závěr středoškolského studia odjakživa skládá maturitní zkouška. Současný společenský i ekonomický kontext zkoušky se od jejího zavedení zásadně proměnil, ale zkouška se dělá dál, jenom už se vlastně zapomnělo proč. V důsledku modernizace vznikl tlak na to, aby se zkouška sjednotila a formalizovala. Tak byla zavedena jednotná státní maturitní zkouška. Vzhledem k dlouhé tradici již nebylo třeba řešit její účel. Hlavním zadáním víceméně bylo: „hlavně, ať zkouška každý rok proběhne“.

Při absenci jasnějších kritérií nebo alternativních měření umožňujících kalibraci se pak za hlavní kritérium naplnění nastavilo, že nenastane neočekávaná situace. Centrum zodpovědné za zkoušku pro její vývoj tedy zvolilo dva nástroje. Jednoduché ukazatele sledující vnitřní konzistentnost testu – aby žádná úloha nevybočovala z řady – a meziroční úspěšnost maturujících. U té je zase hlavní, aby byla meziročně podobná, protože při absenci změn nevyvstane tolik otázek o kvalitě testů.

„O dovednostech se v modelové Republice hovoří jako o stabilní vlastnosti, která se v čase příliš nemění – už v jedenácti letech se pozná, z koho bude matematik, z koho spisovatel a z koho zahradník. V takovém kontextu se otázky o prediktivní validitě, přesnosti měření nebo nerovnostech nekladou.“

O něco důležitější než nástroje, které Centrum zvolilo, jsou nástroje, které zvolit nemuselo nebo nechtělo. V zemi se tou dobou vedla rozprava o testování, která omezené psychometrické analýze přála. O dovednostech se například hovořilo jako o stabilní vlastnosti, která se v čase příliš nemění – už v jedenácti letech se pozná, z koho bude matematik, z koho spisovatel a z koho zahradník. V takovém kontextu se otázky o prediktivní validitě, přesnosti měření pro slabší žáky nebo nerovnostech („žáci ze skupiny X jsou zkrátka hloupější, správný test by je měl vyřadit“) často nekladou.

Naopak představa, že existuje objektivní potřeba dostat více žáků na učiliště – podporována voláním zájmových skupin benefitujících z větší konkurence na trhu manuálně zaměřené práce – upevnila přesvědčení, že je dobré mít nástroj, který s každoroční pravidelností vyčlení stabilní podíl maturantů nedosahujících na vysokoškolské vzdělání. V takovém kontextu se dokonce normalizovala volání po upravování hranice úspěšnosti nikoliv za účelem držení meziroční srovnatelnosti, ale toho, aby maturitu neměl každý. Postupně tedy vykrystalizovaly hodnoty a praxe, ve kterých pro solidní psychometrii nezbylo už žádné místo.

Zajímavé na tom je, že nikde neexistovala centrální autorita spiklenců nebo mocných, která by otevřeně rozhodla o tom, že maturitní zkouška bude zastávat roli zásobitele levné pracovní síly pro kapitány průmyslu. Situace vznikla spontánním vývojem a omezená psychometrie umožňující takové fungování se v ní usadila spíš proto, že pro ni vzniklo místo, než proto, že by je někdo úmyslně vytvořil. Přes to všechno byla nastalá situace vším, jen ne náhodou.

Tato ilustrace není popisem české reality ani spekulací o ní. Nemůže být, protože pro takové závěry by bylo potřeba provést zevrubný politologický výzkum, který by kombinoval kvalitativní i kvantitativní metody, znalost psychometrické teorie i metod diskurzivní analýzy. Především by se ale musel opírat o podrobnou znalost vnitřního fungování instituce zodpovědné za testování. V takovém kontextu je otevřenost a spolupráce s výzkumníky důležitá, protože pomáhá odhalovat i nezamýšlené důsledky institucionálního fungování, kterých by si jinak nikdo nevšiml. Nechává tak prostor jen nepodloženým spekulacím a neověřitelným teoriím.

Otevřenost je cesta

V akademické sféře je psychometrické zadání pro výběr metody zpravidla dané výzkumnou otázkou. U plošného certifikačního měření je ale cíl měření daný politicky a jeho realizace vzniká stejnou měrou uplatňováním metody a institucionální praxí. Instituce zodpovědná za testování má možnost otevřeností zlepšit svou praxi – přes zpětnou vazbu, výzkumné zapojení nezávislých akademiků i vnější dohled. Ještě spíš má ale povinnost svou praxi otevřít, aby ji demokratizovala – obhájila před veřejností, na kterou tato praxe dopadá.