Frajer Zelenskyj, starý Putin. Analytičky zjišťovaly, jak se psalo o ruské invazi na Ukrajině

Jak se psalo o ruské invazi na Ukrajině na českých zpravodajských serverech - tím se zabývá projekt Digitální akademie Czechitas. Cílem bylo mimo jiné zjistit, jaká slova se spojují se jmény Volodomyra Zelenského a Vladimira Putina. Výzkumnice provedly textovou analýzu pomocí počítače, jehož základem je strojové učení.

Tento článek je více než rok starý.

Praha Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Ruský prezident Vladimir Putin a ukrajinský prezident Volodymyr Zelenskyj

Ruský prezident Vladimir Putin a ukrajinský prezident Volodymyr Zelenskyj | Foto: Sputnik, Alexei Druzhinin, Kremlin, Reuters/ Reuters | Zdroj: Koláž iROZHLAS

Strojové učení u počítačů je analogické tomu, jak se učíme my, když se připravujeme třeba na test.

Přehrát

00:00 / 00:00

Analytičky zjišťovaly, jak se psalo o ruské invazi na Ukrajině. Téma pro Martinu Rasch

„Načítáme informace z učebnice a může se nám stát, že se v testu může vyskytnout otázka, o které se v té učebnici nemluvilo. Takže je šance, že budeme chybovat. A tak to má ten počítač vlastně taky,“ popisuje pro Radiožurnál Barbora Vidová Hladká z ústavů formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy

Analýza, při které se z textu dají extrahovat nejrůznější informace, má v současnosti velký potenciál jak v byznysu, tak právě například v žurnalistice. Počítač, který se je naučil rozeznávat, dokáže přečíst obří množství článků, což by pro člověka nebylo v tak krátké době možné. Zhruba 7000 článků teď zanalyzovaly studentky digitální akademie Czechitas Lucia Otiepková a Michaela Szilvásová.

„V našem projektu jsme se zaměřili na Slovensko, Ukrajinu a Rusko a na Putina a Zelenského. Sledovali jsme, jaká slovesa, podstatná jména a přídavná jména se s nimi pojí. Tyto kolokace - slovní spojení, které spolu souvisí gramaticky a sémanticky – nám v médiích vytváří obraz o tom, jak se o zemích informuje.“

Zelenskyj a Putin

Studentky si k analýze vybraly články ze šesti českých zpravodajských serverů, které vyšly od začátku ledna do konce dubna.

„Se Zelenským se pojí přídavná jména jako uvěřitelný, jistý, jasný. Například se s ním pojí i slovo frajer, asi to odráží styl některých médií, která píší méně formálně. U Putina se to pojí s přídavnými jména jako samotný, jasný nebo starý,“ vysvětluje Lucia Otiepková.

Ruská raketa dopadla v Mykolajivu na vícepatrovou budovu, dva lidé zemřeli, uvedl starosta

Číst článek

Množství článků o invazi na Ukrajině podle očekávání koncem února prudce vzrostlo, už po měsíci ale klesá na polovinu. Následné pokrytí konfliktů je pak spíš epizodické.

Trendově také klesá počet slov jako napětí, hranice, aliance. A přibývá výrazů jako uprchlík, civilista, okupant.

„Děvčata zformulovala úlohu a musela se rozhodnout, z jakých zdrojů budou čerpat. A tím začíná, anglicky se tomu říká pipeline, tedy roura několika procedur, které následují po sobě. První úkol je stáhnout články. Objevují se v nich ale nějaké nedokonalosti, takže je potřeba data pročistit. A pak zkonvertování článků do formátu tak, aby s tím počítač uměl pracovat,“ popisuje Vidová Hladká.

Stažením článků a jejím pročištěním pak vzniká soubor textů neboli jazykový korpus, ze kterého se informace extrahují a následně zpracovávají lingvistickými nástroji.

„Projekt je typický projekt takzvané digitální humanitní vědy. Chápu to jako spolupráci humanitních věd a přírodovědných věd, té naší komputační lingvistiky a jazykových technologií,“ doplňuje.

Automatické rozpoznávání zdrojů

Doménou Ústavu formální a aplikované lingvistiky je právě vytváření jazykových korpusů, dá se říct, učebnic pro počítače a potom i vytváření systémů, jakým je například Name Tag, který dokáže v textu rozpoznat vlastní jména, geografické názvy a názvy institucí.

Ukrajina a Rusko si vyměnily zajatce. V Kremenčuku prohledávají trosky obchodního centra

Číst článek

„Vícejazyčnost je charakteristika naší práce. Jsme schopni vytvořit systém pro větný rozbor pro češtinu, němčinu, hindštinu. Pro libovolný jazyk, jemuž korpus máme,“ vysvětluje.

Ústav formální a aplikované lingvistiky je také autorem ukrajinsko-českého překladače a spolupracuje na projektu Signál a šum. Tady je úkolem expertů z matfyzu automatické rozpoznávání zdrojů v článcích rozhlasového zpravodajského serveru iROZHLAS.cz.

„Kupříkladu podle premiéra Fialy se stane to a to. Takže tím zdrojem je konkrétně v této větě premiér Fiala. To chceme automaticky ve všech článcích, kterých teď máme asi 60 tisíc,“ uzavírá Vidová Hladká.

Martina Rasch Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Nejčtenější

Nejnovější články

Aktuální témata

Doporučujeme