Český národní korpus

logo_cnkCNC – webové stránky

Hostitelská instituce: Univerzita Karlova


Výzkumná infrastruktura CNC kontinuálně mapuje český jazyk prostřednictvím budování a zpřístupňování rozsáhlých jazykových korpusů. Jazyková data shromažďovaná CNC pokrývají široké spektrum žánrů a forem (od současné psané češtiny, přes češtinu mluvenou až po starší češtinu). Pro srovnávací výzkum je sestavován také paralelní korpus InterCorp zahrnující texty společně s jejich překlady mezi češtinou a více než 30 jazyky. Jazykové zdroje CNC jsou široce využívány zejména pro svou kontinuální povahu (aktuální data jsou permanentně doplňována), pestrost a vyváženost složení, spolehlivá metadata a vysokou kvalitu zpracování pomocí nejnovějších nástrojů. CNC poskytuje uživatelský přístup především prostřednictvím specializovaných webových rozhraní, která jsou spolu s uživatelskou podporou (on-line poradna, dokumentace a báze znalostí z korposové lingvistiky) soustředěna do výzkumného portálu www.korpus.cz. CNC poskytuje také datové balíčky vytvořené na základě specifických požadavků uživatelů. CNC je v současnosti jediným specializovaným pracovištěm v ČR, které se systematicky soustředí na rozvíjení metodologie korpusové lingvistiky. Přes svůj národní charakter je CNC hojně využíván pro jazykovědný výzkum i v zahraničí, poskytované zdroje navíc lákají zahraniční výzkumné pracovníky ke spolupráci na výzkumu jazykových jevů v kontrastivním rámci, k němuž CNC poskytuje potřebná data. CNC úzce spolupracuje s výzkumnou infrastrukturou LINDAT/CLARIN, národním uzlem panevropské výzkumné infrastruktury CLARIN.

Budoucí rozvoj

Rozvojová strategie CNC je založena zejména na vlastním výzkumu, sledování světových trendů v oblasti korpusové lingvistiky a uživatelské zpětné vazbě. Zahrnuje další rozšiřování uživatelské komunity také o badatele z nelingvistických oblastí společenských a humanitních věd, rozšiřování spektra sbíraných dat o polooficiální jazyk užívaný na internetu, poloformální mluvený jazyk a vytvoření monitorovacího korpusu pokrývajícího období od roku 1850 do současnosti. CNC usiluje o kontinuální vylepšování anotace jazykových dat a o zkvalitňování portfolia stávajících aplikací pro práci s korpusy prostřednictvím jejich dalšího rozvoje a vývoje nových nástrojů.

Socioekonomické přínosy

Primárním cílem výzkumné infrastruktury CNC je poskytovat otevřený přístup k jazykovým datům výzkumné komunitě ve společenských a humanitních vědách i široké laické veřejnosti. CNC má přes 6000 registrovaných aktivních uživatelů, kteří prostřednictvím uživatelských rozhraní položí více než 1900 dotazů denně. CNC představuje unikátní zdroj autentických informací o jazyce jak pro základní a aplikovaný jazykovědný výzkum, tak pro další humanitní obory a počítačové zpracování přirozeného jazyka.