The FERNET-C5 is a monolingual BERT language representation model trained from scratch on the Czech Colossal Clean Crawled Corpus (C5) data - a Czech mutation of the English C4 dataset. The training data contained almost 13 billion words (93 GB of text data). The model has the same architecture as the original BERT model, i.e. 12 transformation blocks, 12 attention heads and the hidden size of 768 neurons. In contrast to Google’s BERT models, we used SentencePiece tokenization instead of the Google’s internal WordPiece tokenization.
More details can be found in README.txt. Yet more detailed description is available in https://arxiv.org/abs/2107.10042
The same models are also released at https://huggingface.co/fav-kky/FERNET-C5
The contribution includes the data frame and the R script (Markdown file) belonging to the paper "Who Benefits from an Imperative? Assessment of Directives on a Benefit-Scale" submitted to the journal Pragmatics on September 2024.
Phonotactic probability refers to the frequency with which phonological segments and sequences of phonological segments occur in words in a given language (Vitevitch – Luce, 2004). It has been shown that phonotactic probabilities of words are important in language processing and language acquisition (Jusczyk et al., 1994; Mattys – Jusczyk, 2001; Pitt – McQueen, 1998). For example, words with high phonotactic probability are processed faster by native speakers in same-different tasks (Luce – Large, 2001), and pseudowords with high phonotactic probability are judged as more word-like by adults (Vitevitch et al., 1997). In this paper we present a phonotactic calculator for Czech implemented as a Python script. The script relies on frequency data from three freely available corpora of Czech: SYN2015 and SYN2020, corpora of written Czech (Křen et al., 2015; 2020), and ORAL v1, a corpus of spoken Czech (Kopřivová et al., 2017). The steps of the calculation mirror those developed by Vitevitch and Luce (2004) for English, and the script can provide phonotactic (and additionally orthotactic) probability for any Czech word or pseudoword. The script can be downloaded at <https://phonocalc.github.io>. and Pojem fonotaktická probabilita odkazuje k frekvenci, s níž se fonologické segmenty a sekvence těchto segmentů objevují ve slovech v určitém jazyce (Vitevitch – Luce, 2004). Předchozí výzkumy ukázaly, že fonotaktická probabilita slov hraje důležitou roli při zpracování a akvizici jazyka (Jusczyk et al., 1994; Mattys – Jusczyk, 2001; Pitt – McQueen, 1998). Slova s vysokou fonotaktickou probabilitou jsou například rychleji zpracována rodilými mluvčími v úloze „same-different“ (Luce – Large, 2001) a pseudoslova s vysokou fonotaktickou probabilitou jsou dospělými hodnocena jako pravděpodobnější slova daného jazyka (Vitevitch et al., 1997). V tomto článku představujeme nástroj pro výpočet fonotaktické probability pro češtinu, který je volně dostupný jako skript v programovacím jazyce Python. Nástroj vychází z údajů o frekvenci slov ze tří volně dostupných korpusů českého jazyka: korpus psaného jazyka SYN2015 (Křen et al., 2015), korpus psaného jazyka SYN2020 (Křen et al., 2020) a korpus mluveného jazyka ORAL v1 (Kopřivová et al., 2017). Výpočet replikuje postup původního kalkulátoru pro anglický jazyk (Vitevitch – Luce, 2004) a výstupem je odhad fonotaktické (a navíc také ortotaktické) probability pro jakékoliv české slovo či pseudoslovo. Skript je dostupný z internetové stránky <https://phonocalc.github.io>.
This paper discusses the possibilities of the research of translated Czech as well as so-called translation universals in Czech. It introduces a monolingual comparable corpus Jerome specifically designed at the Institute of the Czech National Corpus to meet the requirements of translation studies researchers. The case study of simplification presents the results of examining this translation universal in translated Czech and shows the advantages as well as disadvantages of the quantitative approach.
This article deals with intercultural contact in branches of multinational companies or corporations founded in the Czech Republic by German, Austrian or Swiss owners. Multinationalbusinesses (large ones in particular) are trying to regulate the communication within the company. This is achieved predominantly by introducing an official corporate language in the company, employing people fluent in the language, and promoting language courses. Our research, based on the analysis of questionnaires and semi-structured interview data, has shown that the foreign employees seldom adapt to the language of the local employees, while the adaptation of the local employees to the language of the foreign ones is not only usual but also expected. The regulation of the communication therefore results in the promotion of primarily asymmetrical language adaptation, which benefits the German, Austrian and Swiss owners and the German-speaking foreign employees delegated by them (the so-called expatriates). However, the companies examined also promote the use of English to a considerable extent, which provides a basis for symmetrical communication between local and expatriate employees. and Der Artikel handelt über den interkulturellen Kontakt in multinationalen Unternehmen, die nach 1989 in der Tschechischen Republik durch deutsche, österreichische und schweizerische Unternehmen gegründet wurden. Multinationale Unternehmen (insbesondere die großen) versuchen die Kommunikation innerhalb des Unternehmens zu regulieren. Dies geschieht vor allem durch Einführung einer Firmensprache im Unternehmen, Anstellung von Mitarbeitern, die der Sprache mächtig sind, und Förderung von Sprachkursen.
In 9 % der Unternehmen ist das Tschechische die einzige Firmensprache, in 55 % übernimmt diese Aufgabe das Deutsche, in 16 % das Englische, in 15 % Deutsch und Englisch, in 5 % Deutsch und Tschechisch. Was die Sprachkurse betrifft, werden in 64 % der Unternehmen Deutschkurse, in 19 % Tschechischkurse und in 48 % Englischkurse gefördert.
Unsere auf Fragebögen und teilstrukturierten Interviews basierende Untersuchung hat gezeigt, dass sich die ausländischen, nach Tschechien entsandten Mitarbeiter nur selten an die Sprache der lokalen Mitarbeiter adaptieren, während die Adaptation der in Tschechien einheimischen Mitarbeiter an die Sprache der ausländischen Mitarbeiter nicht nur üblich ist, sondern auch erwartet wird. Die Regulierung der Kommunikation mündet also primär in eine asymmetrische sprachliche Adaptation zum Vorteil deutscher, österreichischer und schweizerischer Besitzer und deutschsprachiger ausländischer Mitarbeiter (sog. Expatriates), die durch die Besitzer nach Tschechien delegiert werden. Die untersuchten Unternehmen unterstützen jedoch in beachtlichem Ausmaß auch die Verwendung des Englischen, das eine Basis für symmetrische Kommunikation zwischen den in Tschechien einheimischen und nach Tschechien entsandten Mitarbeitern bildet.
Diese Adaptation betrifft jedoch konkret vor allem die Managementebene, während die Produktion weitgehend tschechisch geprägt bleibt. Weit verbreitet ist auch die Nicht-Adaptation, die zum Einsatz von Dolmetschern und Übersetzern führt. Dies ist – neben der asymmetrischen Adaptation und dem Rückgriff auf das Englische – in 80 % der Unternehmen bzw. in 95 % der großen Unternehmen der Fall.
Eine Detailbeschreibung der Kommunikation in einem der auf dem Gebiet der Tschechischen Republik tätigen Unternehmen des Siemens-Konzerns macht deutlich, wie die Funktionsstellen in einem Produktionsunternehmen besetzt und mit welcher sprachlichen Qualifikation diese verbunden werden, sie zeigt aber auch, wie sich die Firmensprache ändert, wie die interkulturelle Kommunikation unter Einsatz von sprachlich qualifizierten Mitarbeitern konkret abläuft und wie diese – etwa in Sprachkursen – auf ihre Aufgaben vorbereitet werden.
This package contains data sets for development and testing of machine translation of medical search short queries between Czech, English, French, and German. The queries come from general public and medical experts. and This work was supported by the EU FP7 project Khresmoi (European Comission contract No. 257528). The language resources are distributed by the LINDAT/Clarin project of the Ministry of Education, Youth and Sports of the Czech Republic (project no. LM2010013).
We thank Health on the Net Foundation for granting the license for the English general public queries, TRIP database for granting the license for the English medical expert queries, and three anonymous translators and three medical experts for translating amd revising the data.
This package contains data sets for development and testing of machine translation of medical queries between Czech, English, French, German, Hungarian, Polish, Spanish ans Swedish. The queries come from general public and medical experts. This is version 2.0 extending the previous version by adding Hungarian, Polish, Spanish, and Swedish translations.
This package contains data sets for development and testing of machine translation of sentences from summaries of medical articles between Czech, English, French, and German. and This work was supported by the EU FP7 project Khresmoi (European Comission contract No. 257528). The language resources are distributed by the LINDAT/Clarin project of the Ministry of Education, Youth and Sports of the Czech Republic (project no. LM2010013). We thank all the data providers and copyright holders for providing the source data and anonymous experts for translating the sentences.
This package contains data sets for development (Section dev) and testing (Section test) of machine translation of sentences from summaries of medical articles between Czech, English, French, German, Hungarian, Polish, Spanish
and Swedish. Version 2.0 extends the previous version by adding Hungarian, Polish, Spanish, and Swedish translations.
We present a large corpus of Czech parliament plenary sessions. The corpus
consists of approximately 444 hours of speech data and corresponding text
transcriptions. The whole corpus has been segmented to short audio snippets
making it suitable for both training and evaluation of automatic speech
recognition (ASR) systems. The source language of the corpus is Czech, which
makes it a valuable resource for future research as only a few public datasets
are available for the Czech language.