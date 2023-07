Už za hodinu mohou posluchači Českého rozhlasu slyšet hlas Karla Gotta vytvořený umělou inteligencí. Projekt „Gott navždy“ představí četbu na pokračování zpěvákovy autobiografie a to hlasem, který je díky moderním technologiím nerozeznatelný od hlasu Karla Gotta. Na projektu pracovali přední experti na hlasovou syntézu ze Západočeské univerzity v Plzni a ze společnosti SpeechTech. Praha 16:00 13. července 2023 Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Kopírovat do schránky Zavřít Karel Gott (1964) | Zdroj: Archivní a programové fondy Českého rozhlasu

Aleš Pražák z plzeňské společnosti SpeechTech je odborníkem na automatický přepis řeči do textu. Ve své pracovně u počítače ukazuje, jak byl při vzniku hlasu Karla Gotta prvním článkem v celé výrobě:

Váš prohlížeč nepodporuje přehrávání audia. Přehrát 00:00 / 00:00 Neuronové sítě dokážou na základě fonetického přepisu odhadnout, jak vytvořit akustický signál, vysvětluje expert

„Posloucháme znělku, která trvá asi 25 sekund, a potom už pokračuje Karel Gott: ,Hezký a ničím nerušený pořad Zpátky si dám tenhle film přeje ze studia Dvojky Českého rozhlasu Karel Gott‘.“

Podobné záznamy byly tím jediným, z čeho mohli tvůrci vycházet.

„Dostal jsem zhruba 200 hodin nahrávek a mým úkolem bylo automaticky zpracovat tyto záznamy tak, abychom mohli určit, kde se mluví, kde je hudba,“ doplňuje Pražák.

Desetina dat

Jenže zmíněných dvě stě hodin bylo jen počátečním číslem. Tvůrci museli dát pryč nejen celé písně z pořadu, ale i další výrazy. Automatický přepis nemá ve slovníku anglická slova, takže se mnohdy dopustil chyby a místo anglického názvu psal různé zkomoleniny.

‚Mám pocit, když to teď bilancuji, že jsem žil několik životů.‘ Výběr Gottových výroků z posledních let Číst článek

„Přepis ztěžovalo i to, když na začátku hrála hudba. Taková nahrávka byla k vyřazení,“ vysvětluje podmínky náročného síta Daniel Tihelka z výzkumného centra NTIS Západočeské univerzity v Plzni. Sečteno podtrženo, nakonec zbylo 20 hodin záznamu hlasových nahrávek Karla Gotta, ze kterých mohla umělá inteligence vycházet. Tedy desetina původních dat.

„Když se ta nabídka objevila, byla pro nás strašně zajímavá. Já se počítačovou syntézou řečí zabývám 25 let, od svých doktorských studií. A moc rád vidím, jak se tahle technologie zlepšuje a zdokonaluje,“ říká Jindřich Matoušek, který tady na Katedře kybernetiky Západočeské univerzity v Plzni šéfuje týmu hlasové syntézy.

Hluboké neuronové sítě

Zjednodušeně řečeno je to počítačem generovaná řeč na základě textu. Znát ji můžeme třeba z různých infolinek nebo předčítání textů na webech. Nejmodernější technologie ji vytváří díky hlubokým neuronovým sítím.

„Síť má na základě toho fonetického přepisu odhadnout, jak vytvořit akustický signál. A aby tohle mohla udělat, potřebuje hodně příkladů, jak to v reálném světě je, jak Karel Gott vyslovil určitý text. Když tyhle nahrávky opakovaně předkládáme tomu modelu, on se takzvaně učí,“ doplňuje Matoušek.

Nasadili jsme laťku vysoko, říká autor myšlenky na vytvoření Gottova hlasu umělou inteligencí Číst článek

Hlasová syntéza je pak lepší a lepší. V ideálním případě si vývojáři z plzeňské univerzity i společnosti SpeechTech pozvou profesionálního mluvčího, kterého můžou ve studiu úkolovat tak, aby měly neuronové sítě co nejlepší výchozí data. U Karla Gotta tohle udělat nemohli.

„Z nahrávek jsme se snažili vybrat takové části, o kterých si myslíme, že je současné technologie zvládnou. A to pro nás byla výzva, protože ta data jsme neměli pod kontrolou, dostali jsme je už hotová. A pokud tohle pomůže k tomu, že bude hlas Karla Gotta přístupný pro nové technologie, přijde mi to i jako zajímavá aplikace toho, co tady děláme.“

V projektu Gott navždy tak díky umělé inteligenci uslyšíme namluvené pasáže z autobiografie Karla Gotta. První části už od 17.00. Víc podrobností najdete na webu gott.rozhlas.cz.