Společnost OpenAI, která vyvíjí jazykový model ChatGPT, poprvé dosáhla 400 milionů aktivních uživatelů týdně. Velké jazykové modely (large language model, LLM, pozn. red.) s prvky umělé inteligence už našly dílčí využití v průmyslu, službách, programování nebo i školství.

„Zatím nevíme, kde konkrétně bude její přínos finanční nebo jiný, úplně největší. Ale je vidět, že spektrum využití je velmi široké,“ popisuje Hajič.

Metody, kterými se jazykové modely trénují, vyžadují velkou výpočetní sílu a především co největší množství kvalitních dat. „Zdá se, že potřebují mnohem více dat, než člověk dokáže vůbec za život nebo za desítky, stovky životů vstřebat,“ říká badatel a manažer.

Ne vždy jsou výsledky jazykového modelu spolehlivé, připomíná. „Říká se tomu halucinace. Model vymyslí a velmi věrohodně prezentuje něco, co je nesmysl. A to neúmyslně. To nemluví o případu, kdy někdo k zavádějícím faktům vede model schválně,“ dodává.

Nedůvěryhodně také někdy AI pracuje i s údaji, které vycházejí z kulturního zázemí konkrétního jazyka. „V tom mají lidé před stroji stále výhodu,“ upozorňuje vědec.

‚Schopen generovat cokoli‘

Naprogramovat model tak, aby už od základu splňoval například etické požadavky, je ale podle experta zatím nemožné. Opatření, která respektují právo a etické normy, se tak do modelů zabudovávají až zpětně.

„Pokud chcete, aby model dělal to, co se dnes očekává od velkých jazykových modelů – aby měl široké využití – tak z principu bude schopen při vhodné výzvě neboli promptu generovat úplně cokoliv,“ vysvětluje Hajič.

Přesně vysvětlit, co dělají, zatím modely schopné nejsou. Nedokážou tak ještě ani popsat, jak došly k danému výsledku. „Budeme doufat, že do budoucna to tak bude, pak by to bylo skvělé,“ říká expert a dodává:

„Pak je ale otázka, jak moc by nás vůbec potřebovaly, když už by všechno dokázaly zdůvodnit i vysvětlit.“

Jazykové modely v Evropě

V souvislosti s velkým množstvím dat využívaných k trénování jazykových modelů se objevují problémy spojené s etikou, soukromím nebo autorskými právy. Nastupuje regulace, i s tou je ale podle Hajiče nutné zacházet opatrně.

„Je potřeba dávat pozor, aby nebyla příliš tvrdá a nešla shora dolů dřív, než problémy nastanou,“ upozorňuje. „Pak může stát, že kvůli regulaci nejen že nic nevyrobíme, ale ani nakonec nebudeme moct používat ani ty celkem dobré systémy, které do Evropy přicházejí.“

Zatímco americkému modelu ChatGPT momentálně konkuruje čínský DeepSeek, Evropa se na budování velkých jazykových modelů připravuje. Jan Hajič je dnes manažerem projektu OpenEuroLLM, který má vybudovat rodinu výkonných, vícejazyčných velkých jazykových modelů pro evropské komerční, průmyslové a veřejné služby.

Projekt chce zpřístupnit umělou inteligenci co nejvíce lidem. „Chceme, aby minimálně pro všechny evropské a okolní jazyky ty modely fungovaly v zásadě stejně dobře,“ popisuje expert a zdůrazňuje:

„Ono se to asi úplně nepovede, ale cílem je, aby to fungovalo natolik dobře, že využití i pro malé jazyky nebude problematické. Ostatní modely to dělají jaksi mimochodem, my se ale na tuto demokratizaci zaměřujeme od začátku.“

Také Jan Hajič mladší se věnuje aplikované a formální lingvistice a těchto znalostí využívá i při generování hudby. To, že se teď principy lingvistiky převádějí do strojového učení velmi rychle, podle něj prospívá i vědě samotné.

„Už stačí jen texty. Teď můžou lingvisté mnohem lépe říkat, co chtějí dělat. Už nejsou jen v pozici dodavatele expertízy pro aplikace. Máme trochu víc prostoru řešit vědecké otázky,“ dodává.

