Jak se psalo o ruské invazi na Ukrajině na českých zpravodajských serverech - tím se zabývá projekt Digitální akademie Czechitas. Cílem bylo mimo jiné zjistit, jaká slova se spojují se jmény Volodomyra Zelenského a Vladimira Putina. Výzkumnice provedly textovou analýzu pomocí počítače, jehož základem je strojové učení. Praha 11:46 2. července 2022

Strojové učení u počítačů je analogické tomu, jak se učíme my, když se připravujeme třeba na test.

„Načítáme informace z učebnice a může se nám stát, že se v testu může vyskytnout otázka, o které se v té učebnici nemluvilo. Takže je šance, že budeme chybovat. A tak to má ten počítač vlastně taky,“ popisuje pro Radiožurnál Barbora Vidová Hladká z ústavů formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy

Analýza, při které se z textu dají extrahovat nejrůznější informace, má v současnosti velký potenciál jak v byznysu, tak právě například v žurnalistice. Počítač, který se je naučil rozeznávat, dokáže přečíst obří množství článků, což by pro člověka nebylo v tak krátké době možné. Zhruba 7000 článků teď zanalyzovaly studentky digitální akademie Czechitas Lucie Šebková a Michaela Silvášová.

„V našem projektu jsme se zaměřili na Slovensko, Ukrajinu a Rusko a na Putina a Zelenského. Sledovali jsme, jaká slovesa, podstatná jména a přídavná jména se s nimi pojí. Tyto kolokace - slovní spojení, které spolu souvisí gramaticky a sémanticky – nám v médiích vytváří obraz o tom, jak se o zemích informuje.“

Zelenskyj a Putin

Studentky si k analýze vybraly články ze šesti českých zpravodajských serverů, které vyšly od začátku ledna do konce dubna.

„Se Zelenským se pojí přídavná jména jako uvěřitelný, jistý, jasný. Například se s ním pojí i slovo frajer, asi to odráží styl některých médií, která píší méně formálně. U Putina se to pojí s přídavnými jména jako samotný, jasný nebo starý,“ vysvětluje Lucia Otiepková.

Množství článků o invazi na Ukrajině podle očekávání koncem února prudce vzrostlo, už po měsíci ale klesá na polovinu. Následné pokrytí konfliktů je pak spíš epizodické.

Trendově také klesá počet slov jako napětí, hranice, aliance. A přibývá výrazů jako uprchlík, civilista, okupant.

„Děvčata zformulovala úlohu a musela se rozhodnout, z jakých zdrojů budou čerpat. A tím začíná, anglicky se tomu říká pipeline, tedy roura několika procedur, které následují po sobě. První úkol je stáhnout články. Objevují se v nich ale nějaké nedokonalosti, takže je potřeba data pročistit. A pak zkonvertování článků do formátu tak, aby s tím počítač uměl pracovat,“ popisuje Vidová Hladká.

Stažením článků a jejím pročištěním pak vzniká soubor textů neboli jazykový korpus, ze kterého se informace extrahují a následně zpracovávají lingvistickými nástroji.

„Projekt je typický projekt takzvané digitální humanitní vědy. Chápu to jako spolupráci humanitních věd a přírodovědných věd, té naší komputační lingvistiky a jazykových technologií,“ doplňuje.

Automatické rozpoznávání zdrojů

Doménou Ústavu formální a aplikované lingvistiky je právě vytváření jazykových korpusů, dá se říct, učebnic pro počítače a potom i vytváření systémů, jakým je například Name Tag, který dokáže v textu rozpoznat vlastní jména, geografické názvy a názvy institucí.

„Vícejazyčnost je charakteristika naší práce. Jsme schopni vytvořit systém pro větný rozbor pro češtinu, němčinu, hindštinu. Pro libovolný jazyk, jemuž korpus máme,“ vysvětluje.

Ústav formální a aplikované lingvistiky je také autorem ukrajinsko-českého překladače a spolupracuje na projektu Signál a šum. Tady je úkolem expertů z matfyzu automatické rozpoznávání zdrojů v článcích rozhlasového zpravodajského serveru iROZHLAS.cz.

„Kupříkladu podle premiéra Fialy se stane to a to. Takže tím zdrojem je konkrétně v této větě premiér Fiala. To chceme automaticky ve všech článcích, kterých teď máme asi 60 tisíc,“ uzavírá Vidová Hladká.