Show simple item record

 
dc.contributor.author Hajič, Jan
dc.contributor.author Panevová, Jarmila
dc.contributor.author Sgall, Petr
dc.contributor.author Pajas, Petr
dc.contributor.author Štěpánek, Jan
dc.contributor.author Havelka, Jiří
dc.contributor.author Mikulová, Marie
dc.contributor.author Žabokrtský, Zdeněk
dc.contributor.author Ševčíková-Razímová, Magda
dc.date.accessioned 2011-11-04T15:03:18Z
dc.date.available 2006-06-21T00:00:00Z
dc.date.issued 2006-06-21
dc.identifier.uri http://hdl.handle.net/11858/00-097C-0000-0001-B43E-6
dc.description A small subset of PDT 2.0 made available under a permissive license. Prague Dependency Treebank 2.0 (PDT 2.0) contains a large amount of Czech texts with complex and interlinked morphological (2 million words), syntactic (1.5 MW) and complex semantic annotation (0.8 MW); in addition, certain properties of sentence information structure and coreference relations are annotated at the semantic level. PDT 2.0 is based on the long-standing Praguian linguistic tradition, adapted for the current Computational Linguistics research needs. The corpus itself uses the latest annotation technology. Software tools for corpus search, annotation and language analysis are included. Extensive documentation (in English) is provided as well.
dc.description.sponsorship * Ministry of Education of the Czech Republic projects No. VS96151, LN00A063, 1P05ME752, MSM0021620838 and LC536, * Grant Agency of the Czech Republic grants Nos. 405/96/0198, 405/96/K214 and 405/03/0913, * research funds of the Faculty of Mathematics and Physics, * Charles University, Prague, Czech Republic, * Grant Agency of the Czech Academy of Science, Prague, Czech Republic projects No. 1ET101120503, 1ET101120413, and 1ET201120505 * Grant Agency of the Charles University No. 489/04, 350/05, 352/05 and 375/05 * the U.S. NSF Grant #IIS9732388.
dc.language.iso ces
dc.publisher Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
dc.relation.ispartof http://hdl.handle.net/11858/00-097C-0000-0001-B098-5
dc.rights Creative Commons - Attribution 3.0 Unported (CC BY 3.0)
dc.rights.uri http://creativecommons.org/licenses/by/3.0/
dc.source.uri http://ufal.mff.cuni.cz/pdt2.0/doc/pdt-guide/en/html/ch03.html#a-data-sample
dc.subject treebank
dc.subject dependency
dc.subject.other PDT
dc.title Prague Dependency Treebank 2.0 - sample data
dc.type corpus
metashare.ResourceInfo#ContactInfo#PersonInfo.surname Straňák
metashare.ResourceInfo#ContactInfo#PersonInfo.givenName Pavel
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo.organizationName Charles University in Prague, UFAL
metashare.ResourceInfo#DistributionInfo.availability unrestrictedUse
metashare.ResourceInfo#DistributionInfo#LicenseInfo.restrictionsOfUse academicUse/nonCommercialUse
metashare.ResourceInfo#DistributionInfo#LicenseInfo.distributionAccessMedium download
metashare.ResourceInfo#ValidationInfo.validated True
metashare.ResourceInfo#ResourceCreationInfo#FundingInfo#ProjectInfo.fundingType nationalFunds
metashare.ResourceInfo#ContentInfo.mediaType text
metashare.ResourceInfo#TextInfo#LanguageInfo.languageCoding ces
metashare.ResourceInfo#TextInfo#SizeInfo.size 549.2
metashare.ResourceInfo#TextInfo#SizeInfo.sizeUnit kb
metashare.ResourceInfo#ContactInfo#PersonInfo#OrganizationInfo#CommunicationInfo.email stranak@ufal.mff.cuni.cz
dc.rights.label PUB
has.files yes
branding LINDAT / CLARIAH-CZ
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky VS96151 Laboratoř počítačového zpracování jazykových dat nationalFunds
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky LN00A063 Centrum komputační lingvistiky nationalFunds
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky 1P05ME752 Vícejazyčný valenční a predikátový slovník přirozeného jazyka nationalFunds
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky MSM 0021620838 Moderní metody, struktury a systémy informatiky nationalFunds
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky LC536 Centrum komputační lingvistiky nationalFunds
sponsor Grantová agentura České republiky GA405/96/0198 Formální reprezentace jazykových struktur nationalFunds
sponsor Grantová agentura České republiky GA405/96/K214 Čeština ve věku počítačů nationalFunds
sponsor Grantová agentura České republiky GA405/03/0913 Velké jazykové korpusy a jejich automatická analýza nationalFunds
sponsor Grantová agentura Akademie věd České republiky 1ET101120503 Integrace jazykových zdrojů za účelem extrakce informací z přirozených textů nationalFunds
sponsor Grantová agentura Akademie věd České republiky 1ET101120413 Data a nástroje pro informační systémy nationalFunds
sponsor Grantová agentura Akademie věd České republiky 1ET201120505 Od jazyka ke znalostem a sémantickému webu nationalFunds
sponsor Grantová agentura Univerzity Karlovy v Praze GAUK 489/2004 Tektogramatická reprezentace angličtiny - aplikace funkčního generativního popisu (FGP) na hloubkovou syntax cizích jazyků v PZK nationalFunds
sponsor Grantová agentura Univerzity Karlovy v Praze GAUK 350/2005 Faktory koherence textu a jejich zpracování v syntakticky anotovaném korpusu textů nationalFunds
sponsor Grantová agentura Univerzity Karlovy v Praze GAUK 352/2005 Pražský závislostní korpus: Analýza vybraných jevů z české funkční onomatologie a syntaxe nationalFunds
sponsor Grantová agentura Univerzity Karlovy v Praze GAUK 375/2005 Automatická hloubková analýza mluvené češtiny: od akustického signálu k významu nationalFunds
sponsor National Science Foundation (USA) NSF IIS-9732388 Data preparation for Workshop 1998, JHU, Baltimore, MD, USA other
size.info 549.2 kb
files.size 549252
files.count 1


 Files in this item

This item is
Publicly Available
and licensed under:
Creative Commons - Attribution 3.0 Unported (CC BY 3.0)
Distributed under Creative Commons Attribution Required
Icon
Name
pdt2sample.zip
Size
536.38 KB
Format
application/zip
Description
A sample of the full PDT 2.0 data
MD5
c04ea9371e9f4cce5f720766cb4561d4
 Download file  Preview
 File Preview  
    • sample4.t.gz21 kB
    • sample6.t.gz23 kB
    • sample8.t.gz22 kB
    • sample0.m.gz14 kB
    • sample2.m.gz14 kB
    • sample4.m.gz13 kB
    • sample0.a.gz11 kB
    • sample6.m.gz14 kB
    • sample0.w.gz7 kB
    • sample2.a.gz11 kB
    • sample8.m.gz13 kB
    • sample2.w.gz6 kB
    • sample4.a.gz10 kB
    • sample4.w.gz6 kB
    • sample6.a.gz11 kB
    • sample6.w.gz6 kB
    • sample8.a.gz10 kB
    • sample8.w.gz6 kB
    • sample1.t.gz27 kB
    • sample3.t.gz25 kB
    • sample5.t.gz24 kB
    • sample7.t.gz22 kB
    • sample9.t.gz8 kB
    • sample1.m.gz16 kB
    • sample3.m.gz15 kB
    • sample5.m.gz15 kB
    • sample1.a.gz13 kB
    • sample7.m.gz13 kB
    • sample1.w.gz7 kB
    • sample3.a.gz11 kB
    • sample9.m.gz5 kB
    • sample3.w.gz7 kB
    • sample5.a.gz11 kB
    • sample5.w.gz7 kB
    • sample7.a.gz10 kB
    • sample9.a.gz4 kB
    • sample7.w.gz6 kB
    • sample9.w.gz2 kB
    • sample0.t.gz24 kB
    • sample2.t.gz23 kB

Show simple item record