Nejvyšší vědecké ohodnocení získalo letos jedenáct výjimečných osobností Akademie věd. Mezi novými nositeli je také lingvista Petr Plecháč z Ústavu pro českou literaturu. Svou dizertaci o rozborech básnických textů obhájil před komisí a získal tak titul doktor filologických věd. „Vždycky záleží na tom, jaká máte k dispozici data a co jsou všechno dopředu víte,“ přibližuje v rozhovoru pro Český rozhlas Plus Plecháč. Rozhovor Praha 14:08 23. května 2024 Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Kopírovat do schránky Zavřít knihy | Foto: Michaela Danelová | Zdroj: iROZHLAS.cz

Ve své práci propojujete studium matematiky a bohemistiky. K analýze literatury využíváte statistické metody a strojové učení. Co všechno můžete těmito metodami z literárních textů vyčíst?

S takovými metodami se dá vyčíst leccos. Od toho o čem zhruba o text pojednává, jaké jsou tematicky podobné texty, nějak je klastrovat třeba s přibližnou datací, kdy byl text napsán nebo kdo s největší pravděpodobností mohl být jeho autorem.

Čeština je obrovský svět, nemůžete ho znát celý. Nejproblematičtější je artikulace, říká jazykovědec Číst článek

Právě tomu se vy věnujete – problematice autorství, a to i u textů z dob dávno minulých. Jak složité určit autora díla a co vlastně všechno taková analýza vyžaduje?

Ono vždycky strašně moc záleží na tom, jaká máte k dispozici data a co jsou všechno dopředu víte.

Jednodušší je ta otázka samozřejmě ve chvíli, kdy máte dva podezřelé kandidáty, než když jich máte 50 anebo ten kandidátský okruh neznáte vůbec. Zároveň je potřeba prostě mít k dispozici co nejvíc textů od těch případných podezřelých. Ideálně z období, kdy třeba byl zhruba ten text napsán.

Protože, vezmete-li třeba texty, které produkuji dneska a srovnáte je s texty, které jsem produkoval, když mně bylo 10 let, tak ony už si moc podobné nebudou.

Poznáte třeba podle frekvence slov nebo dalších znaků, já nevím, typu pomlčky, dvojtečky apod. Kdo byl autorem, respektive třeba kdo jím není, přisuzuje se mu autorství?

Pracuje se často s frekvencí slov nebo frekvencí jinak definovaných definovaných jednotek a vždycky to záleží jednak na tom, jak je ten sporný text dlouhý, protože prostě ze tří vět toho matematickou analýzou moc nezjistíte. A zároveň na tom, jak moc textů z daného období zhruba a v nějakém srovnatelném žánrů od těch podezřelých máte k dispozici.

Právě vyšlo:

Petr Plecháč — VERSIFICATION AND AUTHORSHIP ATTRIBUTION



Do jaké míry lze versologické charakteristiky využít jako indikátor autorství?

A jak je to s autorstvím dramatu The Two Noble Kinsmen a básní připisovaných Gavriilu Batěnkovovi?



— https://t.co/KhXpJ89jFa pic.twitter.com/odzzoR7DhL — Ústav pro českou literaturu AV ČR (@UCLavcr) July 28, 2021

Vy jste mezinárodního úspěchu dosáhl výzkumem, který právě za použití strojového učení a verzi logických charakteristik, určil autorství hry Jindřich VIII. Kdo přesně tedy stojí za vznikem toho alžbětinského dramatu, které zachycuje život anglického krále. Byl to William Shakespeare anebo jeho současník John Fletcher?

S největší pravděpodobností oba zároveň a to tak, že jak jak Shakespeare, tak Fletcher byli autory zhruba poloviny toho díla, což není ostatně myšlenka nikterak revoluční – poprvé byla vyslovena už v roce 1850 Jamesem Springer, který už tehdy provedl takovou elementární elementární analýzu textu, kterou se to snažil, který už se to snažil podepřít. Od té doby těch studií vznikla celá řada.

Profesor Hilský: Kniha Shakespearova Anglie byla nenapsatelná, Shakespeare je nepřeložitelný Číst článek

A nedávno vám taky vyšel článek o Milanu Kunderovi. Šlo o divadelní hru Juro Jánošík, která měla premiéru v roce 1974. Autorem měl být Karel Steigerwald, Kunderův Žák. Co vám prozradila matematická analýza?

To je článek, který jsme napsali spolu s kolegyní Lenkou Jungmannovou, která se dílem Milana Kundery dlouhodobě zabývá. A s největší pravděpodobností autorem té hry ve skutečnosti byl Milan Kundera. Karel Steigerwald pravděpodobně je uveden jako autor z toho důvodu, že Kundera už tehdy byl autorem ne příliš pohodlným.

A na čem v současnosti pracujete?

V této chvíli se zabýváme hodně rozpoznáváním vlastních jmen v poezii, na což existuje spousta spousta nástrojů a modelů pro neveršované texty. Ovšem u textu veršovaných je to poměrně obtížnější tím, že se tam často objevují různé personifikace a velká počáteční písmena, která obvykle jsou dobrým ukazatelem toho, co vlastně jmenuje a co není, se v poezii užívají také dost jinak než mimo řeč neveršovanou.