MorfFlex CZ 2.1 (2024-12-23)
Please use the following text to cite this item or export to a predefined format:
Hajič, Jan; Hlaváčová, Jaroslava; Mikulová, Marie; Straka, Milan and Štěpánková, Barbora, 2024,
MorfFlex CZ 2.1 (2024-12-23), LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL),
http://hdl.handle.net/11234/1-5833.
Authors
Item identifier
Project URL
Date issued
2024-12-23
Size
126906921 entries
Language(s)
Description
MorfFlex CZ 2.1 is the Czech morphological dictionary developed originally by Jan Hajič as a spelling checker and lemmatization dictionary. MorfFlex CZ 2.1 is a part of the PDT-C 2.0 release https://hdl.handle.net/11234/1-5813. It is a minor upgrade from MorfFlex CZ 2.0, with the tagset unchanged, but with some additions and corrections for full compatibility with PDT-C 2.0 morphological annotation.
MorfFlex is a flat list of lemma-tag-wordform triples. For each wordform, full inflectional information is coded in a positional tag. Wordforms are organized into entries (paradigm instances or paradigms in short) according to their formal morphological behavior. The paradigm (set of wordforms) is identified by a unique lemma. Apart from traditional morphological categories, the description also contains some semantic, stylistic and derivational information.
For more details see a comprehensive specification of the Czech morphological annotation https://ufal.mff.cuni.cz/techrep/tr64.pdf .
Acknowledgement
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LM2015071
Project name:LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:CZ.02.1.01/0.0/0.0/16_013/0001781
Project name:LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie - rozšíření repozitáře a výpočetní kapacity
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LM2018101
Project name:LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:CZ.02.1.01/0.0/0.0/18_046/0015782
Project name:LINDAT/CLARIAH-CZ-EXTENSION Rozšíření repozitáře, služeb a výpočetního klastru výzkumné infrastruktury
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LM2023062
Project name:LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:CZ.02.01.01/00/23_015/0008176
Project name:LINDAT/CLARIAH-CZ Přístrojové vybavení
Subject(s)
Collections
This item isPublicly Available
and licensed under:
Files in this item
- Name
- czech-morfflex-2.1.tsv.xz
- Size
- 238.88 MB
- Format
- application/x-xz
- Description
- xz Archive
- MD5
- 76b4753ab291d53f05a7139596d0be72

The file preview has not been generated yet. Please try again later or contact the system administrator lindat-help@ufal.mff.cuni.cz

