CzeSL-GEC is a corpus containing sentence pairs of original and corrected versions of Czech sentences collected from essays written by both non-native learners of Czech and Czech pupils with Romani background. To create this corpus, unreleased CzeSL-man corpus ( was utilized. All sentences in the corpus are word tokenized.
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu: LM2015071
Jméno projektu: LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
Grantová agentura České republiky
Kód projektu: GAČR 16-10185S
Jméno projektu: Čeština nerodilých mluvčích z pohledu teoretického a komputačního / Non-native Czech from the Theoretical and Computational Perspective