Prague Dependency Treebank 2.0 - sample data
Please use the following text to cite this item or export to a predefined format:
Hajič, Jan; et al., 2006,
Prague Dependency Treebank 2.0 - sample data, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL),
http://hdl.handle.net/11858/00-097C-0000-0001-B43E-6.
Authors
Hajič, Jan ; et al.
Item identifier
Date issued
2006-06-21
Size
549.2 kb
Language(s)
Description
A small subset of PDT 2.0 made available under a permissive license.
Prague Dependency Treebank 2.0 (PDT 2.0) contains a large amount of Czech texts with complex and interlinked morphological (2 million words), syntactic (1.5 MW) and complex semantic annotation (0.8 MW); in addition, certain properties of sentence information structure and coreference relations are annotated at the semantic level.
PDT 2.0 is based on the long-standing Praguian linguistic tradition, adapted for the current Computational Linguistics research needs. The corpus itself uses the latest annotation technology. Software tools for corpus search, annotation and language analysis are included. Extensive documentation (in English) is provided as well.
Acknowledgement
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:VS96151
Project name:Laboratoř počítačového zpracování jazykových dat
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LN00A063
Project name:Centrum komputační lingvistiky
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:1P05ME752
Project name:Vícejazyčný valenční a predikátový slovník přirozeného jazyka
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:MSM 0021620838
Project name:Moderní metody, struktury a systémy informatiky
Ministerstvo školství, mládeže a tělovýchovy České republiky
Project code:LC536
Project name:Centrum komputační lingvistiky
Grantová agentura České republiky
Project code:GA405/96/0198
Project name:Formální reprezentace jazykových struktur
Grantová agentura České republiky
Project code:GA405/96/K214
Project name:Čeština ve věku počítačů
Grantová agentura České republiky
Project code:GA405/03/0913
Project name:Velké jazykové korpusy a jejich automatická analýza
Grantová agentura Akademie věd České republiky
Project code:1ET101120503
Project name:Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů
Grantová agentura Akademie věd České republiky
Project code:1ET101120413
Project name:Data a nástroje pro informační systémy
Grantová agentura Akademie věd České republiky
Project code:1ET201120505
Project name:Od jazyka ke znalostem a sémantickému webu
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 489/2004
Project name:Tektogramatická reprezentace angličtiny - aplikace funkčního generativního popisu (FGP) na hloubkovou syntax cizích jazyků v PZK
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 350/2005
Project name:Faktory koherence textu a jejich zpracování v syntakticky anotovaném korpusu textů
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 352/2005
Project name:Pražský závislostní korpus: Analýza vybraných jevů z české funkční onomatologie a syntaxe
Grantová agentura Univerzity Karlovy v Praze
Project code:GAUK 375/2005
Project name:Automatická hloubková analýza mluvené češtiny: od akustického signálu k významu
National Science Foundation (USA)
Project code:NSF IIS-9732388
Project name:Data preparation for Workshop 1998, JHU, Baltimore, MD, USA
Subject(s)
Collections
This item isPublicly Available
and licensed under:
Files in this item
- Name
- pdt2sample.zip
- Size
- 536.38 KB
- Format
- application/zip
- Description
- A sample of the full PDT 2.0 data
- MD5
- c04ea9371e9f4cce5f720766cb4561d4

-
- sample4.t.gz21 kB
- sample6.t.gz23 kB
- sample8.t.gz22 kB
- sample0.m.gz14 kB
- sample2.m.gz14 kB
- sample4.m.gz13 kB
- sample0.a.gz11 kB
- sample6.m.gz14 kB
- sample0.w.gz7 kB
- sample2.a.gz11 kB
- sample8.m.gz13 kB
- sample4.a.gz10 kB
- sample2.w.gz6 kB
- sample4.w.gz6 kB
- sample6.a.gz11 kB
- sample6.w.gz6 kB
- sample8.a.gz10 kB
- sample8.w.gz6 kB
- sample1.t.gz27 kB
- sample3.t.gz25 kB
- sample5.t.gz24 kB
- sample7.t.gz22 kB
- sample9.t.gz8 kB
- sample1.m.gz16 kB
- sample3.m.gz15 kB
- sample5.m.gz15 kB
- sample1.a.gz13 kB
- sample7.m.gz13 kB
- sample1.w.gz7 kB
- sample3.a.gz11 kB
- sample9.m.gz5 kB
- sample3.w.gz7 kB
- sample5.a.gz11 kB
- sample5.w.gz7 kB
- sample7.a.gz10 kB
- sample7.w.gz6 kB
- sample9.a.gz4 kB
- sample9.w.gz2 kB
- sample0.t.gz24 kB
- sample2.t.gz23 kB

