Language: French and Slovak / Rights: http://creativecommons.org/licenses/by-nc-sa/4.0/

Start Over Language French Language Slovak Rights http://creativecommons.org/licenses/by-nc-sa/4.0/

Creator:: Gurevych, Iryna, Habernal, Ivan, and Zayed, Omnia
Publisher:: Technische Universität Darmstadt
Type:: text and corpus
Subject:: CommonCrawl, Creative Commons, Web corpus, and Amazon Web Services
Language:: Afrikaans, Arabic, Bengali, Bulgarian, Czech, Danish, German, Modern Greek (1453-), English, Estonian, Persian, Finnish, French, Gujarati, Hebrew, Hindi, Croatian, Hungarian, Indonesian, Italian, Japanese, Korean, Latvian, Lithuanian, Malayalam, Marathi, Macedonian, Nepali (macrolanguage), Dutch, Norwegian, Polish, Portuguese, Romanian, Russian, Slovak, Slovenian, Somali, Spanish, Albanian, Swahili (macrolanguage), Swedish, Tamil, Telugu, Tagalog, Thai, Turkish, Ukrainian, Undetermined, Urdu, Vietnamese, and Chinese
Description:: A large web corpus (over 10 billion tokens) licensed under CreativeCommons license family in 50+ languages that has been extracted from CommonCrawl, the largest publicly available general Web crawl to date with about 2 billion crawled URLs.
Rights:: Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0), http://creativecommons.org/licenses/by-nc-sa/4.0/, and PUB

Creator:: Náplava, Jakub, Straka, Milan, Hajič, Jan, and Straňák, Pavel
Publisher:: Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
Type:: text and corpus
Subject:: diacritical marks generation and natural language correction
Language:: Czech, Vietnamese, Romanian, Polish, Slovak, Spanish, Croatian, Irish, Latvian, Hungarian, French, and Turkish
Description:: Corpus of texts in 12 languages. For each language, we provide one training, one development and one testing set acquired from Wikipedia articles. Moreover, each language dataset contains (substantially larger) training set collected from (general) Web texts. All sets, except for Wikipedia and Web training sets that can contain similar sentences, are disjoint. Data are segmented into sentences which are further word tokenized. All data in the corpus contain diacritics. To strip diacritics from them, use Python script diacritization_stripping.py contained within attached stripping_diacritics.zip. This script has two modes. We generally recommend using method called uninames, which for some languages behaves better. The code for training recurrent neural-network based model for diacritics restoration is located at https://github.com/arahusky/diacritics_restoration.
Rights:: Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0), http://creativecommons.org/licenses/by-nc-sa/4.0/, and PUB

Format:: print
Type:: model:supplement and TEXT
Language:: Czech, Latin, Slovak, and French
Description:: Obsah ročníku LXX (2022)
Rights:: http://creativecommons.org/licenses/by-nc-sa/4.0/ and policy:public

Type:: model:periodicalitem and TEXT
Language:: Czech, English, Slovak, and French
Description:: 1
Rights:: http://creativecommons.org/licenses/by-nc-sa/4.0/ and policy:public

Creator:: Krajina a dům, vzdálenost a blízkost, nahoře a dole... (2004 : Praha, Česko), Fedrová, Stanislava, Hejk, Jan, and Jedličková, Alice
Publisher:: Univerzita Karlova, Pedagogická fakulta
Format:: print and 233 s. : il. ; 21 cm
Type:: model:monograph and TEXT
Subject:: Česká literatura (o ní), od 1989, česká literatura, textová analýza, literární náměty, prostor (umění), Czech literature, 1890-, textual criticism, literary themes, space (art), 821.162.3, 801.73, 82:7.04, 7.01, (062.534), 11, and 821.162.3.09
Language:: Czech, Slovak, English, French, and German
Description:: Příspěvky studentské literárněvědné konference PedF UK., k vydání připravili Stanislava Fedrová, Jan Hejk, Alice Jedličková, Obsahuje bibliografie a bibliografické odkazy, and Část. slovenský text, anglická, francouzská a německá resumé
Rights:: http://creativecommons.org/licenses/by-nc-sa/4.0/ and policy:public

Limit your search