LINDAT/CLARIAH-CZ poskytuje veřejně dostupný překladač mezi češtinou a ukrajinštinou

V reakci na válku na Ukrajině vyvinuli akademici z týmu velké výzkumné infrastruktury LINDAT/CLARIAH-CZ v rekordně krátkém čase veřejně dostupný automatický překladač mezi češtinou a ukrajinštinou. Tento překladač je volně dostupný v rámci nástroje CUBBITT, který byl veřejnosti představen před necelými dvěma lety. Nástroj využívá neuronové sítě a umožňuje překlad mezi několika jazyky. Vědci aktuálně pracují na jeho rozšíření o další jazyky a současně vyvíjejí nové metody, které umožní ještě vyšší kvalitu překladu. Česko-ukrajinská a ukrajinsko-česká verze vznikla jako výsledek hackathonu s cílem pomoci uprchlíkům z Ukrajiny překonat jazykovou bariéru a usnadnit jim kontakt v českém prostředí.

Ukrajinská vlajka

„Předběžné výsledky testů ukazují, že kvalita ukrajinsko-českého překladu je vyšší než například u systému Google Translate, a to zejména díky novým metodám strojového učení, které původně vznikly pro česko-anglický překlad,“ uvádějí tvůrci česko-ukrajinského překladače. Další výhodou pražského systému je, že na rozdíl od jiných volně dostupných online systémů nepoužívá angličtinu jako mezikrok, ale překládá mezi češtinou a ukrajinštinou přímo. Ukrajinská verze CUBBITTu funguje v jednoduchém rozhraní, do kterého je možné napsat nebo zkopírovat překládaný text. Nástroj ukáže ukrajinské znění českého textu nejen v cyrilici, ale také v latince, což dále napomáhá vzájemnému porozumění.

LINDAT – Technologie pro digitální humanitní vědy

LINDAT/CLARIAH-CZ je velká výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy zastřešující účast Česka v evropských výzkumných konsorciích CLARIN ERIC  (Common Language Resources and Technology Infrastructure) a DARIAH ERIC (Digital Research Infrastructure for the Arts and Humanities) a sídlící na Matematicko-fyzikální fakultě Univerzity Karlovy. Zapojuje se do mezinárodní spolupráce mezi obdobnými výzkumnými infrastrukturami i přímo mezi institucemi ve všech humanitních oborech a klade důraz na digitální a interdisciplinární metody zpracování, včetně moderních metod strojového učení a umělé inteligence. Část trénovacích dat potřebných pro vývoj česko-ukrajinského překladače dodala výzkumníkům z Ústavu formální a aplikované lingvistiky též další jazykově zaměřená velká výzkumná infrastruktura – Český národní korpus.