This is not the latest version of this item. The latest version can be found here.
Prague Dependency Treebank 3.5
Please use the following text to cite this item or export to a predefined format:
Hajič, Jan; et al., 2018,
Prague Dependency Treebank 3.5, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL),
http://hdl.handle.net/11234/1-2621.
Authors
Hajič, Jan ; et al.
Item identifier
Project URL
Demo URL
Date issued
2018-02-19
Size
115844 sentences,
1956693 tokens
Language(s)
Description
The Prague Dependency Treebank 3.5 is the 2018 edition of the core Prague Dependency Treebank (PDT). It contains all PDT annotation made at the Institute of Formal and Applied Linguistics under various projects between 1996 and 2018 on the original texts, i.e., all annotation from PDT 1.0, PDT 2.0, PDT 2.5, PDT 3.0, PDiT 1.0 and PDiT 2.0, plus corrections, new structure of basic documentation and new list of authors covering all previous editions. The Prague Dependency Treebank 3.5 (PDT 3.5) contains the same texts as the previous versions since 2.0; there are 49,431 annotated sentences (832,823 words) on all layers, from tectogrammatical annotation to syntax to morphology. There are additional annotated sentences for syntax and morphology; the totals for the lower layers of annotation are: 87,913 sentences with 1,502,976 words at the analytical layer (surface dependency syntax) and 115,844 sentences with 1,956,693 words at the morphological layer of annotation (these totals include the annotation with the higher layers annotated as well). Closely linked to the tectogrammatical layer is the annotation of sentence information structure, multiword expressions, coreference, bridging relations and discourse relations.
Acknowledgement
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LM2015071
Project name:LINDAT/CLARIN: Výzkumná infrastruktura pro jazyková data
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LM2010013
Project name:LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LH14011
Project name:Vícejazyčná korpusová anotace
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:1P05ME752
Project name:Vícejazyčný valenční a predikátový slovník přirozeného jazyka
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:ME10018
Project name:K počítačové analýze struktury textu
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LD14117
Project name:Parseme CZ
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:VS96151
Project name:Laboratoř počítačového zpracování jazykových dat
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LN00A063
Project name:Centrum komputační lingvistiky
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LC536
Project name:Centrum komputační lingvistiky
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:MSM 0021620838
Project name:Moderní metody, struktury a systémy informatiky
Grantová agentura České republiky
Project code:GA405/96/0198
Project name:Formální reprezentace jazykových struktur
Grantová agentura České republiky
Project code:GA405/96/K214
Project name:Čeština ve věku počítačů
Grantová agentura České republiky
Project code:GA405/03/0913
Project name:Velké jazykové korpusy a jejich automatická analýza
Grantová agentura České republiky
Project code:GA405/09/0729
Project name:Od struktury věty k textovým vztahům
Grantová agentura České republiky
Project code:GAP406/10/0875
Project name:Komputační lingvistika: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu
Grantová agentura České republiky
Project code:GAP202/10/1333
Project name:NoSCoM: nestandardní výpočetní modely a jejich aplikace ve složitosti, lingvistice a učení
Grantová agentura České republiky
Project code:GPP406/10/P193
Project name:Nástroje pro revizi a tektogramatickou anotaci českého závislostního korpusu
Grantová agentura České republiky
Project code:GAP406/12/0658
Project name:Koreference, diskurs a aktuální členění v kontrastivním pohledu
Grantová agentura České republiky
Project code:GPP406/12/P175
Project name:Vybrané derivační vztahy pro automatické zpracování češtiny
Grantová agentura České republiky
Project code:GP13-03351P
Project name:Srovnání české a anglické valence sloves na základě korpusového materiálu (teorie a praxe)
Grantová agentura České republiky
Project code:GA17-07313S
Project name:Contextually-based synonymy and valency of verbs in a bilingual setting
Grantová agentura České republiky
Project code:GA17-12624S
Project name:Subkategorizace adverbiálních významů na základě korpusových dat
European Union
Project code:FP6-IST-5-034434-IP
Project name:Companions IP
European Union
Project code:EC/FP7/249119
Project name:T4ME NET - Technologies for the Multilingual European Information Society
European Union
Project code:EC/FP7/247762
Project name:FAUST - Feedback Analysis for User adaptive Statistical Translation
European Union
Project code:EC/FP7/610516
Project name:QTLEAP - Quality Translation by Deep Language Engineering Approaches
COST
Project code:IC1207
Project name:PARSEME: PARSing and Multi-word Expressions
Grantová agentura Akademie věd České republiky
Project code:1ET101120503
Project name:Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů
Grantová agentura Akademie věd České republiky
Project code:1ET101120413
Project name:Data a nástroje pro informační systémy
Grantová agentura Akademie věd České republiky
Project code:1ET201120505
Project name:Od jazyka ke znalostem a sémantickému webu
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 489/2004
Project name:Tektogramatická reprezentace angličtiny - aplikace funkčního generativního popisu (FGP) na hloubkovou syntax cizích jazyků v PZK
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 350/2005
Project name:Faktory koherence textu a jejich zpracování v syntakticky anotovaném korpusu textů
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 352/2005
Project name:Pražský závislostní korpus: Analýza vybraných jevů z české funkční onomatologie a syntaxe
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 375/2005
Project name:Automatická hloubková analýza mluvené češtiny: od akustického signálu k významu
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 4383/2009
Project name:Methods of coreference resolution
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 1036/2009
Project name:Textové (mezivětné) vztahy a jejich zachycení v jazykovém korpusu
National Science Foundation (USA)
Project code:NSF IIS-9732388
Project name:Data preparation for Workshop 1998, JHU, Baltimore, MD, USA
Univerzita Karlova
Project code:PRVOUK P46
Project name:PRVOUK P46
Univerzita Karlova
Project code:PROGRES Q48
Project name:Informatika
Univerzita Karlova
Project code:PROGRES Q18
Project name:Od víceoborovosti k mezioborovosti
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:CZ.02.1.01/0.0/0.0/16_013/0001781
Project name:LINDAT/CLARIN - Výzkumná infrastruktura pro jazykové technologie - rozšíření repozitáře a výpočetní kapacity
Collections
Version History
This item isPublicly Available
and licensed under:


