MorfFlex CZ 2.1 (2024-12-23)
Pro citování této položky použijte následující text nebo ji exportujte do předdefinovaného formátu:
Hajič, Jan; Hlaváčová, Jaroslava; Mikulová, Marie; Straka, Milan and Štěpánková, Barbora, 2024,
MorfFlex CZ 2.1 (2024-12-23), LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL),
http://hdl.handle.net/11234/1-5833.
Autoři
Identifikátor
URL projektu
Datum
2024-12-23
Velikost
126906921 entries
Jazyky
Popis
MorfFlex CZ 2.1 is the Czech morphological dictionary developed originally by Jan Hajič as a spelling checker and lemmatization dictionary. MorfFlex CZ 2.1 is a part of the PDT-C 2.0 release https://hdl.handle.net/11234/1-5813. It is a minor upgrade from MorfFlex CZ 2.0, with the tagset unchanged, but with some additions and corrections for full compatibility with PDT-C 2.0 morphological annotation.
MorfFlex is a flat list of lemma-tag-wordform triples. For each wordform, full inflectional information is coded in a positional tag. Wordforms are organized into entries (paradigm instances or paradigms in short) according to their formal morphological behavior. The paradigm (set of wordforms) is identified by a unique lemma. Apart from traditional morphological categories, the description also contains some semantic, stylistic and derivational information.
For more details see a comprehensive specification of the Czech morphological annotation https://ufal.mff.cuni.cz/techrep/tr64.pdf .
Sponzoři
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu:LM2015071
Jméno projektu:LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu:CZ.02.1.01/0.0/0.0/16_013/0001781
Jméno projektu:LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie - rozšíření repozitáře a výpočetní kapacity
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu:LM2018101
Jméno projektu:LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu:CZ.02.1.01/0.0/0.0/18_046/0015782
Jméno projektu:LINDAT/CLARIAH-CZ-EXTENSION Rozšíření repozitáře, služeb a výpočetního klastru výzkumné infrastruktury
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu:LM2023062
Jméno projektu:LINDAT/CLARIAH-CZ: Digitální výzkumná infrastruktura pro jazykové technologie, umění a humanitní vědy
Ministerstvo školství, mládeže a tělovýchovy České republiky
Kód projektu:CZ.02.01.01/00/23_015/0008176
Jméno projektu:LINDAT/CLARIAH-CZ Přístrojové vybavení
Klíčová slova
Historie verzí
Tento záznam jePublicly Available
a je licencován pod licencí:
Soubory tohoto záznamu
- Název
- czech-morfflex-2.1.tsv.xz
- Velikost
- 238.88 MB
- Formát
- application/x-xz
- Popis
- Morphological dictionary of Czech language, consisting of triples lemma (which includes sense suffix (-<number>) and semantic/synt. suffixes and comments in PDT-C format), full positional tag in PDT-C format, and form. Fields are tab separated, always filled by non-empty string, lines end with linefeed only, and coding is UTF-8.
- MD5
- 76b4753ab291d53f05a7139596d0be72


