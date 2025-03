EU chce mít svůj vlastní velký jazykový model. Bude se jmenovat OpenEuroLLM a na jeho vývoji se podílí dvacet podniků, výzkumných institucí a superpočítačových center z celé Evropy. „Měl by umět všechny evropské jazyky, a to ve vyšší kvalitě než běžné modely, které přišly z USA nebo z Číny,“ říká pro Český rozhlas Plus vedoucí projektu Jan Hajič. Model má umět i jazyky spojenců Unie, třeba Norska, nebo obchodních partnerů, jako jsou Čína a Indie. Interview Plus Praha 16:09 30. března 2025 Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Kopírovat do schránky Zavřít Jan Hajič se zabývá vývojem jazykových modelů | Foto: Věra Luptáková | Zdroj: Český rozhlas

Hajič uznává, že evropský vývoj přichází se zpožděním po velkých projektech Googlu nebo OpenAI. Vnímá to jako nevýhodu, ale zároveň i jako výhodu, protože výzkumníci mohou čerpat ze zkušeností svých kolegů.

„Za tu dobu se posunuly jak technologie, které jsou velmi často k dispozici jako takzvané open source, to znamená, že je můžeme volně používat. A za druhé dnes máme mnohem více textů v dobré kvalitě,“ popisuje vědec.

„Je samozřejmě velká výhoda, že máme data a můžeme se rovnou vrhnout na výrobu jazykových modelů,“ dodává.

Blokování dat

OpenEuroLLM by měl být otevřený a měl by se vyhýbat cenzuře a předsudkům. To znamená, že nebude trénován na textech, které jsou neetické nebo obsahují nepřesné či zavádějící informace, ujišťuje Hajič.

„Filtrování na úrovni dat nejde udělat úplně stoprocentně. Modely se nejprve vyrobí a pak na to jsou evaluační metody, kdy se bude zjišťovat, jak moc jednoduché je ten model přimět, aby dělal něco neetického,“ přibližuje.

Cílem projektu je vyrobit základní model, na který později naváže sesterská iniciativa, jež naučí model interagovat a adaptuje jej na specifické obory.

Hlavním problémem je jednak nedostatečná kapacita dostupných datových center, ale také blokování obsahu některými weby.

„Data, která jsou momentálně blokovaná pro použití v umělé inteligenci, jsou obvykle ta kvalitnější data z velkých nakladatelství, která tomu rozumějí a blokování provádějí,“ podotýká Hajič. „Data, která používáme, toto respektují, a tím pádem budeme moci být otevření a ukazovat, na jakých datech jsme model dělali,“ vysvětluje.

Není čas na slepé uličky

Komunita vědců zabývající se umělou inteligencí je v Česku podle Hajiče silná. A pro projekt je důležité, že iniciativa vznikla od jednotlivých podniků a výzkumníků, protože zastřešující instituci, která by se mohla ve vývoji AI angažovat, v Česku nemáme.

„Je to proto, že u nás ani v Evropě není dostatečná kapacita. S tím, co máme k dispozici, velký model nevyrobíte,“ přiznává Hajič. „Iniciativa tak vznikla zdola. Oslovili mě z Německa, z Finska a chtěli jsme tam mít lidi, kteří mají zkušenost s opravdu velkými modely,“ doplňuje.

Při posuzování projektu je z hlediska evropské politiky důležitý i ekologický rozměr technologie, která je kvůli potřebě chlazení velmi energeticky náročná. Výhodné je zejména partnerství s finskými institucemi, které využívají nízkých teplot a chladných řek, aby zátěž snížily.

Ke spolupráci výzkumníci oslovili i řadu firem, některé z nich odmítly. Seznam odborníků spolupracujících na projektu se ale ještě může rozšiřovat. Důležitá bude hlavně znalost velkých komerčních modelů, míní expert.

„To, jak modely rostou, není jenom o přidávání výpočetní kapacity. Nefunguje to úplně stejně, proto je zkušenost cenná,“ přibližuje Hajič. „Není na světě mnoho lidí, kteří mají zkušenost s tak velkými modely. Takže se budeme snažit, abychom znalostí mohli využít a vyvarovali se chyb, protože při obrovské kapacitě, kterou na to potřebujeme, není na mnoho slepých uliček čas,“ uzavírá Hajič.

Jak výzkumníci získávají data pro model? A mohou hodnoty tvůrců ovlivňovat podobu výsledného modelu? Dozvíte se v záznamu celého rozhovoru v úvodu článku.