Tomáš Pluskal, vedoucí vědecké skupiny Biochemie rostlinných specializovaných metabolitů, ÚOCHB AV ČR, Roman Bushuiev, doktorand ve skupině Tomáše Pluskala, Anton Bushuiev, doktorand Český institut informatiky, robotiky a kybernetiky ČVUT, Raman Samusevich, doktorand ve skupině Tomáše Pluskala, a Josef Šivic, Český institut informatiky, robotiky a kybernetiky ČVUT | Foto: Tomáš Belloň / ÚOCHB AV ČR

„Každá látka má hmotnostní spektra. A pomocí nich dokážeme ty látky docela dobře rozlišit. Ale interpretovat ta hmotnostní spektra není úplně jednoduché,“ vysvětluje Tomáš Pluskal z Ústavu organické chemie a biochemie Akademie věd (ÚOCHB).

Hmotnostní spektrometr jsou víceméně váhy, které díky hmotnosti prvků zjistí složení konkrétní látky. Je to jeden z nejběžnějších přístrojů každé laboratoře. A i tady je to taková šedá, velká, velmi hlučná krabice, do které není vidět. „Musí to být všechno uzavřené, protože tam udržujeme vysoké vakuum. Ale co my vidíme, už jsou ta data, která nám z toho padají, a vidíme to tady vedle na počítači,“ ukazuje Pluskal.



Jde o barevné signály právě v závislosti na množství konkrétní látky v celém vzorku. Ale vůbec není jasné, o jakou molekulu jde. Vidíme víceméně jenom nějaká čísla.

„Přesně tak, přístroj nám změří molekulární hmotnosti, ale neřekne nám sám od sebe, co je to za molekuly, jak se liší jejich složení v jednotlivých vzorcích a podobně. Jedna analýza nám vygeneruje třeba jeden gigabite dat. Když pak máme třeba tisíc vzorků, tak zpracovat takové množství dat vyžaduje výpočetně vychytané algoritmy,“ upozorňuje Pluskal.

Vědci tak pracují jen s některými daty. Desítky milionů hmotnostních spekter z rostlin, mikrobů, tkání nebo půd ale nejsou vůbec vyhodnoceny.

A právě ty využili odborníci z ÚOCHB a ve spolupráci s Českým institutem informatiky, robotiky a kybernetiky ČVUT vytvořili model strojového učení DreaMS. To je v podstatě obdoba jazykového modelu ChatGPT. Podle doktoranda Romana Bushuieva jen místo slov a vět používá hmotnostní spektra.

„Náš model je založený na úplně stejném principu. Vezmeme obrovské množství hmotnostních spekter, schováme tam nějaké signály a model s obrovským množstvím parametrů trénujeme tak, aby odhadoval, které signály byly zamaskované, takže se učí, jak by ta spektra měla vypadat,“ vysvětluje.

Model DreaMS zrychluje analýzu neznámých látek, a dokonce umí ve spektrech odhalit i z hlediska životního prostředí důležitý fluor, což je vzhledem k jeho stabilitě zatím problém.

„Model s docela vysokou přesností dokáže predikovat, jestli fluor látka obsahuje, nebo ne. Zhruba 30 procent agrochemikálií a léčiv fluor obsahují, byl tam chemicky přidaný. Náš model je první, který dokáže detekovat takové látky automaticky,“ zdůrazňuje Bushuiev.

Umělá inteligence DreaMS umožňuje charakterizaci molekulárních struktur přítomných v přírodě prostřednictvím interpretace dat z hmotnostní spektrometrie | Foto: ÚOCHB AV ČR

Teď to vědci ověřují i experimentálně. Podobně jako chatbot může „spektrální neuronová síť“ DreaMS objevit i věci, které vědec normálně nevidí. Například spojení pesticidů, potravin a lupénky.

„Když vezmeme nějaké spektrum, které pochází ze vzorku kůže člověka, který je nemocný lupénkou, tak hodně podobné spektrum můžeme najít ve vzorcích, které obsahují pesticidy. Takže to provokuje hypotézu, že lupénka je provokována nějakými pesticidy,“ přibližuje Bushuiev.

V akademickém Ústavu organické chemie a biochemie se Tomáš Pluskal se svým týmem zaměřuje hlavně na léčivé látky z rostlin, proto vytvořili model strojového učení.

„Rozjíždíme projekty, kde se snažíme analyzovat větší množství rostlinných vzorků ve spolupráci s botanickými zahradami, abychom objevili nějaké nové zajímavé molekuly, které bez té umělé inteligenci bychom objevili velice těžko,“

O modelu DreaMS informoval prestižní vědecký časopis Nature Biotechnology. A využívat jej mohou vědci z celého světa.