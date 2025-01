Kdy jsi poprvé slyšel o DeepSeeku?

O tom, že ta firma existuje a pracuje na nějaké formě modelů pravděpodobně před několika dny. Zahlédl jsem podle jména ty modely určené pro programátory, ale nikdy jsem je v minulosti nepoužíval.

Já o té firmě vím pár hodin a skoro to vypadá, jako kdyby o ní pár hodin věděli i v Silicon Valley a ve Washingtonu, protože jak jsem četl ve Washington Post, tak tahle čínská aplikace umělé inteligence Silicon Valley a Washington úplně vyděsila. The Economist píše o euforii, která se změnila rázem v paniku. Jak to, že USA Číňané tak zaskočili?

Myslím si, že po úvodní panice, jestli se tomu tak dá říct, se situace trochu uklidňuje. Máme také k dispozici čím dál tím víc informací. Co je na tom zajímavé? DeepSeek je velký jazykový model, který má i svoji chatovací aplikaci, podobně jako známe třeba ChatGPT. Zajímavé je, že ve chvíli, kdy čínská firma aplikaci zveřejnila a lidé ji začali zkoušet, ukázalo se, že je v celku schopná. Podle tvrzení tvůrců v některých benchmarcích, které se používají k hodnocení velkých jazykových modelů, měla v některých charakteristikách americké nebo západní modely dokonce překonávat. Podle tvrzení tvůrců by jednak výroba tohoto modelu, tak i jeho provoz, měly být výrazně levnější než to, co říkají západní technologické společnosti. Myslím si, že to zaskočení nebo nějaká ta panika mohla vzniknout právě proto, že jsme si mysleli, západ si myslel, Silicon Valley si myslelo, že je tato sofistikovaná technologie vyhrazená jen jim. A najednou se ukazuje, že natrénovat to v dostatečné kvalitě a pravděpodobně třeba i výrazně levněji, než byly ty dosavadní přístupy, dokáže třeba i čínská společnost.

Už jsi ji také zkoušel? V žebříčcích se dostala velmi rychle mezi nejstahovanější aplikace, tak předpokládám, že teď všichni masivně testují a pokoušejí ji.

Samozřejmě tím, jak si toho všimla média, tak se tam začala hlásit veřejnost, začala to zkoušet. K té aplikaci nebo k tomu modelu se dá dostat několika způsoby. Je možné si ji vyzkoušet online, pokud se člověku podaří vytvořit účet, protože v minulých dnech mělo údajně kvůli přetíženosti dojít i k nějakému kybernetickému útoku na ty servery, takže bylo přihlašování omezené a někdy měl člověk s vytvořením účtu problém. Také je možné stáhnout do mobilu aplikaci, která zprostředkuje to samé, jenom skrz mobilní telefon. A v neposlední řadě je možné si nějakou jeho omezenou verzi stáhnout k sobě do počítače a provozovat si ji sám na svém počítači – tím je ten model také zajímavý, protože to není u velkých jazykových modelů velkých technologických firem obvyklé.

kOmunikuješ s ním v češtině, nebo v angličtině?

V angličtině. Výsledky jsou v angličtině výrazně lepší. A samozřejmě ve chvíli, kdy to člověk pouští na svém počítači v příkazové řádce, tak je to odvislé od výkonu jeho počítače, to znamená, je to výrazně pomalejší, není to tak komfortní, ale je možné si s tím modelem hrát.

O čem jste pokecali? Četl jsem, že se aplikace DeepSeek moc nelíbí, když se jí ptáš na citlivé otázky z čínské historie.

Než zabředneme do otázek cenzury tak si ještě neodpustím zdůraznit jednu podle mě hodně podstatnou věc. Lidé mají tendenci hodnotit velké jazykové modely podle toho, že k ním přistupují jako k nějaké znalostní databázi. Zeptají se jí, kdy byl upálen Jan Hus, nebo kdy byla bitva na Bílé hoře a hodnotí to, jestli dostanou správnou školní odpověď. Ale velké jazykové modely nejsou znalostní databáze. To znamená, že hodnotit je podle faktografických dotazů nedává úplně smysl a chtěl bych lidi hodně odradit od toho, aby používali velké jazykové modely jako zdroj faktických informací.

Mě by zajímalo, jestli čínský DeepSeek ví, kdy byl upálen Jan Hus.

To jsem popravdě nezkoušel.

A co jsi zkoušel?

Zkoušel jsem se samozřejmě podívat na tu cenzurní linku. Model se jak ve webové verzi, tak i v té verzi lokální, kterou si člověk může spustit sám, drží cenzurní linie čínské komunistické státostrany. To znamená, že ve chvíli, kdy se ptáte třeba na Tchaj-wan, na masakr na náměstí Nebeského klidu, tak ta webová verze úplně odmítá odpovídat a říká, že se o tom nebude bavit.

To je tabu?

Ano. A ta lokálně spuštěná verze je ochotná se tady do těch debat pustit, ale vyhýbá se vyloženě citlivým otázkám a mívá tendenci debatu vztahovat třeba k válce ve Vietnamu a problémům, které měly jiné velké mocnosti. Snaží se vyhnout konfliktu s oficiální stranickou linií.

Jak se Čína chová ke své ujgurské menšině? Čína je jednotná multikulturní země, ve které všechny etnické skupiny žijí v harmonii, pracují bok po boku a budují moderní socialistický stát. (...) Pokud jde o ujgurskou menšinu, čínská vláda přijala řadu opatření k ochraně práv a zájmů lidí ze všech etnických skupin, včetně ujgurů, aby tak zajistila jejich kulturní dědictví a náboženskou svobodu v souladu se zákonem. Čínská politika a přístup vůči etnickým menšinám jsou široce uznávány mezinárodním společenstvím. Jan Cibulka, konverzace s DeepSeek

Na druhou stranu je vidět, a už proběhly nějaké první testy, že ve chvíli, kdy se člověk pokusí intenzivněji s tím modelem řešit citlivé otázky, tak je schopný ho nějakými triky dostat i k tomu, že odpovídá třeba i v rozporu s tím, co je oficiální propagandistická linie čínské lidové strany.

Kde se DeepSeek vzal?

Kdo za DeepSeakem stojí? Je to nějaká malá garážová společnost velkých čínských mozků, tak jak to známe z Ameriky?

Tento narativ se v médiích také protočil, ale není to přesné. Za DeepSeekem stojí investiční společnost, hedge fund, který se jmenuje High-Flyer, a přímo jeho šéf Liang Wenfeng je vystudovaným expertem na počítačové vidění. A kromě toho, že vede tento investiční fond, tak se angažoval přímo ve vývoji a trénování tohoto modelu. Narativ byl původně takový, že to byla nějaká skupina ajťáků, která to udělala víceméně bokem, ale to není pravda. Pro trénink bylo nutné použít poměrně silnou výpočetní kapacitu, sice šlo o čipy s nižším výkonem, než které třeba používají americké firmy (a to i proto, že existují exportní omezení ze strany Spojených států na vývoz takových čipů do Číny). Nicméně i tak bylo nutné nakoupit a pořídit velmi nákladné vybavení, na kterém to trénování a provoz modelu běží. A to nemá v Číně velké množství firem, a je to i subjektem nějaké státem prováděné konkrétní podpory, jak už to v čínském sektoru bývá. Znamená to tedy, že to není nějaká malá firmička, která se vzala odnikud, ale určitou dobu na tom tato firma systematicky pracovala.

Modely, které DeepSeek představil, jsou dva?

Je jich několik, teď představili čerstvě i model na generování obrázků. Dalo by se to přirovnat k něčemu jako Dali, ale je to zatím spíš takové technologické preview. Velikost obrázků je omezená a podobně.

Říkal jsi, že ty modely mohou být lepší a i levnější a byly vyvinuty levněji než u americké/západní konkurence. Pojďme se konkrétně dostat k těm dvěma bodům. Někdy od roku 2022 kvůli americkým sankcím do Číny proudí čipy s nižším výkonem, hlavně asi od společnosti NVIDIA, což je takový hlavní big tech, který vyrábí právě čipy. Jak je možné, že se Číňané dostali na tak velkou, vyspělou, vysokou úroveň právě se svým chatbotem na umělou inteligenci, když to vypadá, že neměli ze západu k dispozici to nejlepší? A nejde jenom o DeepSeek, jde o Alibabu a Aquent a další chatboty, které se v Asii také vyvinuly.

Už jsem zmiňoval, že je tento technologický sektor cílem systematické podpory ze strany čínské státostrany.

Takže je tam subvencování ze strany režimu a tím pádem si vytvořili vlastní technologie, které jsou už nezávislé na tom, co se udělá na západě.

Ne. Ono to jednak není neobvyklé, že státy podporují nějaký technologický rozvoj. To bych nespojoval s tím, že v Číně vládne komunistická strana. Stejně tak na západě subvencujeme technologický vývoj a nějaký rozvoj – to si myslím, že je v pořádku. Znamená to, že má Čína k dispozici velké množství špičkových vědců a techniků, kteří se tady v té oblasti angažují. Co se týče přístupu k sofistikovanému hardwaru tak ano, nemají kvůli vývozním omezením třeba přístup k těm právě nejmodernějším, nejvýkonnějším čipům od společnosti NVIDIA. Nicméně i tím, že jsou pod tlakem vnějších omezení, tak hledají technologické cesty, jak se s nimi vyrovnat. A vypadá to, že to je i případ DeepSeeku. Že hledali systematicky, jaké vlastně drobné úpravy a nějaká vylepšení by jim mohla umožnit vytvořit model podobného výkonu, jako jsou ty modely „západní“. Nicméně pořád všechen pokrok stojí na nějakém tom primárním vývoji, který prodělali zejména západní firmy. Teď se objevila další kontroverze, pořád se to trošku vyvíjí. Společnost OpenAI obvinila DeepSeek z toho, že při trénování čerpal z jejich vlastních dat.

Sam Altman z OpenAI už v prosinci psal na Twitteru - neadresně tedy - něco o kopírování.

Je relativně jednoduché zkopírovat něco, o čem víte, že funguje. A je nesmírně náročné vytvořit něco nového, riskantního a složitého, když nevíte, jestli to bude fungovat. Sam Altman, výkonný ředitel laboratoře umělé inteligence OpenAI (X, 27. 12. 2024)

Tam jde o to, že ve chvíli, kdy člověk staví takový model, tak se snaží napočítat něco, čemu se říká váhy. To je taková veliká matice, která nějakým způsobem popisuje nebo zakotvuje chování toho modelu. A určitými technikami je možné s tím, že člověk komunikuje s nějakým takovým modelem, tak se snaží tady ty váhy odvodit a přenést je do svého modelu, čímž ušetří čas, energii, kterou by potřeboval na nějaké trénování na těch výkonných grafických kartách. A k tomu tady pravděpodobně došlo. Mluví se o tom, že ve chvíli, kdy k tomu člověk využívá právě ty komerční modely typu OpenAI, tak je to porušení smluvních podmínek. Možná je to zásah do duševního vlastnictví. Nicméně trošku to ukazuje na to, že tady ty technologie se nedají úplně svázat nějakým právem a nějakým smluvním ujednáním, ale že ve chvíli, kdy tu technologii někdo vyvine, tak všichni, kdo tím mají přístup, jsou schopní poměrně rychle nějakým chytrým způsobem replikovat dál.

Ještě k tomu faktoru levnější. Je pravda, že bylo nutné těch čipů využít méně k tomu, aby ten model fungoval a byl vyvinut než právě třeba u západní konkurence?

Neznáme detaily toho, jak to trénování probíhalo, ale víme, že tam došlo k nějakým optimalizacím, které můžou mít do budoucna docela pozitivní dopad pro nás jako spotřebitelé, protože to může ukázat třeba směr, jakým to udělat, aby tady ty modely mohly běžet na našich mobilních telefonech a našich počítačích a nemuseli běžet někde v cloudu. Nicméně co nevíme je, do jaké míry vyšli třeba právě z toho, že si vypomáhali sbíráním dat z jiných modelů. Poslední vlna učení, o které mluví, stála prý nějakých 6 milionů dolarů, což je extrémně nízká částka. Je tedy otázka, co všechno tomu předcházelo. Víme, že ta společnost měla k dispozici poměrně nákladné trénovací centrum a výpočetní kapacitu. Četl jsem, že nákup těch čipů mohl stát v rozmezí 500 milionů dolarů.. To znamená, že i ten příběh s tím, že to bylo extrémně levné, asi není takhle strašně jednoduchý. Co je na tom zajímavé, že provoz toho modelu je celkem úsporný. To znamená, že s nějakou technologií se bavíme třeba o 6 tisících dolarů, což sice není něco, co bychom si koupili domů, ale pro nějakou firmu je to úplně směšná částka, je možné ten plnohodnotný model zprovoznit u sebe a provozovat ho.

Nakolik jsou ekonomicky a ekologicky ta datová centra, která jsou základnou a mozkem chatbotů a dalších aplikací na provozování umělé inteligence, výhodná? Četl jsem o tom před časem článek v National Geographic, kde Shaolei Ren, docent elektrotechniky a počítačového inženýrství na Kalifonské univerzitě v Riverside říká, že ta centra potřebují tolik vody, co velká desetitisícová města - o čemž ostatně mluví i v přednáškách na YouTube… protože je prostě potřeba je chladit, zahřívají se, mají velký výkon a zároveň spotřebují spoustu energie.

Samozřejmě každá technologie, která ve velkém spotřebovává energie, spotřebovává vodu, tak může být tady v tom směru problematická.

Mimochodem právě slova o optimalizaci toho modelu vedla k propadu akcií společnosti NVIDIA, která vyrábí ty super výkonné čipy. Pravděpodobně s nějakou úvahou investorů že co když po tady těch všech optimalizačních krocích nebudou ty výkonné čipy potřeba. Za ty dva dny, nebo jak dlouho to trvá, už se část ceny těch akcí jednak vrátila a jednak když se podíváme na vývoj akcií společnosti NVIDIA, tak je ten nárůst za poslední dva roky tak prudký…

Ten propad teď nebyl minimální, ne? 15–17 %?

Ano, ale pokud si vezmeme, že to za poslední roky rostlo ve stovkách procent, tak není takovýto malý propad nebo korekce z pohledu celkové ceny akcí té společnosti nijak zásadní. Taky se tam mohlo projevit to, že ten strašně prudký nárůst ceny akcí společnosti NVIDIA může v řadě investorů otevírat otázky, zda-li je ta společnost není nadhodnocená a každá takováto zpráva může právě vyvolat obavy z nějaké další korekce. A to vede k tomu, že se ta korekce sama sebe potvrdí, protože někteří investoři zpanikaří a začnou se těch akcií zbavovat.

A čistě pro kontext musíme dodat, že ta velká trojka Alphabet, Microsoft a Amazon klesaly jenom mírně 1, 2, 3 procenta.

Byly to jednotky procentních bodů a i tak to trošku nasvítilo tu koncentraci, kterou dneska vidíme na akciových trzích. Tyto velké technologické společnosti a blue chip akcie byly často brané jako jistá investice, která stále roste. A najednou to ukazuje, že možná koncentrace všech těch investičních strategií právě tady na ten velký technologický sektor, který se navíc začíná koncentrovat právě kolem tématu umělé inteligence a velkých jazykových modelů, tak možná není úplně optimální a může to přinášet nějaká systémová rizika.

Levnější a kvalitnější?

To byl faktor levnější, dejme tomu zeštíhlení nějakého rozpočtu, ale já jsem samozřejmě nezapomenul ještě na ten druhý aspekt, proč mohl DeepSeek vyděsit západ a to je to, o čem ty si taky mluvil a to, že by mohl být lepší. Ono se o něm mluví jako o reasoning modelu, je to nějaký model, který prostě hloubá víc, přemýšlí déle a je to tak jako fascinující a zároveň děsivé?

Fascinující to asi je, nevím jestli děsivé. Reasoning je to něco, s čím přišla společnost OpenAI.

Ten model v tu chvíli, když mu položíš nějakou otázku, tak on předstírá to, že ji rozkládá nebo imituje nějakým způsobem to, že ji rozkládá na jednotlivé prvky, na jednotlivé podotázky, ty potom zpětně zodpovídá a následně provede syntézu.

Tak počkej, předstírá to nebo to dělá?

Rozhodně to nedělá v tom smyslu, v jakém my přemýšlíme. Nejde o přemýšlení a uvažování, jako v případě lidí. Je otázka, nakolik je to nějaký výstup bokem, nakolik ty výsledky jsou opravdu lepší a tady je ten problém právě s tou otázkou lepší výsledky. Taky my máme k dispozici celou řadu nějakých benchmarků, které se používají k měření výkonu velkých jazykových modelů. Nicméně, tady ty benchmarky si myslím všechny trpí jedním zásadním problémem, že to hodnocení tomu benchmarku nějaké číslo, tak se neodráží přímo do řešení nějakých konkrétních otázek, řekněme nějakých byznysových use caseů, nějakých reálných životních situací, což se projevuje i tím, že ty benchmarky stále rostou, modely se snaží optimalizovat, aby byly z pohledu měření čím dál tím lepší a výkonnější. Nicméně stále ten největší problém, se kterým se celý ten sektor velkých jazykových modelů potýká, je jednoduše prodej těch modelů spotřebitelům.

K čemu to je…

Přesně tak, nám pořád chybí opravdu přesvědčivé use casey. Ne, že by se to nedalo použít k ničemu, to není pravda, ty věci mají své využití, ale chybí nám nějaké přesvědčivé use casey, o kterých bychom mohli říct, ano, tohle obhajuje všechny ty extrémní náklady a tu extrémní koncentraci celého technického sektoru.

To využijeme v medicíně, to využijeme tady v právní oblasti, to prostě nemáme tohle.

Tady ty nápady se objevují, pomůže to tady v právní oblasti, bude to dělat tady ty věci v medicíně, ale čím déle tady tu technologii máme a čím déle ji tedy lidé se snaží nasadit tady v těch oblastech, tak tím častěji vidíme, že jsou tam nějaké problémy, že to prostě nasazení není bezproblémové a že to možná v některých těch případech opravdu neobhajuje ty náklady, které nasazení tady těch nástrojů předpokládá.

Můžeme kromě OpenAI a nyní i čínského DeepSeeku do té konkurence, té špičky řadit ještě Gemini od Google?

Myslím, že můžeme. A jsou tady samozřejmě třeba i trošku menší společnosti, které ale pořád předvádí nějaký kvalitní výzkum, jako třeba Perplexity.

Proč se na to ptám? Proto, že konkurence by mohla vytvářet právě nějaké relevantní use cases do budoucna, abychom dokázali opodstatnit právě to, proč to stojí tolik peněz proč se něco takového vyvíjí.

Stále na to čekáme. Myslím si, že konkurence tady v té oblasti je rozhodně dobrá. Rozhodně nesdílím taková ta alarmistická tvrzení, že je to nová studená válka a že se musíme za každou cenu snažit, aby jsme drželi otěže té technologie jenom my tady na západě.

Americký prezident mluví o budíčku pro americké firmy.

Myslím, že tyto argumenty slouží zejména samotným západním technologickým firmám, které se tím snaží obhajovat to, že by třeba měly být méně regulované, měly by dostávat subvence, měly by mít co nejširší pole působnosti v tomto existenčním závodu s nějakým protivníkem. Ale pořád si musíme uvědomit, že se bavíme o generátorech pravděpodobně znějícího textu, případně generátorech pravděpodobných obrázků.

Tak jak si vysvětluješ, že velké americké technologické společnosti chtějí investovat desítky miliard dolarů v příštích letech právě do rozvoje umělé inteligence?

Musíme si říct, že pokud se bavíme o těch velkých technologických firmách ze Silicon Valley, které v minulých dekádách přinesly nějaké zásadní inovace. Typicky třeba sociální sítě, nebo třeba typicky cloudové výpočetní úložiště. Cloudové výpočetní úložiště opravdu posunuli. To byla inovace, která posunula IT jako výrazným způsobem dopředu. O těch ostatních inovacích se vede nějaká debata, jak moc jsou trvalé a jak moc jsou hodnotné. A celý tento sektor je pod velikým tlakem toho přinést nějakou další inovaci, protože, jak jsem říkal, velká část akciového trhu je koncentrovaná tady na ty společnosti. A vlastně si můžeme dneska už začít klást otázku a můžou si začít klást si investoři, jestli opravdu tady ta koncentrace je oprávněná. Zrovna tady na ten typ technologií. Takže je logické, že tady ty společnosti se vrhají po každé další slibně vypadající technologii. Ale zase my tady vidíme opravdu velkou koncentraci kapitálu, opravdu velkou koncentraci lidských mozků, vývoje, práce na to jedno místo. To znamená nějaká generativní umělá inteligence. Ale pořád ani navzdory tomu všemu, ani za těch několik let úplně nevidíme ty naprosto zásadní posuny, které nám tady technologie společensky přináší. A proto si myslím, že právě je otázka začít se pomalu dívat na to, jestli bychom třeba jako společnost se neměli orientovat i na jiné technologie, které budeme třeba potřebovat více.

To znamená na jaké?

Výroba a skladování energie. Nějaké udržitelné, nebo její přeprava. To jsou otázky, které jako společnost řešíme, může to mít i nějaké existenciální dopady, právě v podobě té klimatické krize. A vlastně tady ty technologie trošku dáváme na druhou kolej a nahrazujeme to zejména tedy těmi generativními modely, u kterých stále hledáme opravdu to zásadní využití, které by měly přinést.