Služby | LINDAT/CLARIAH-CZ

Charles Translator

Authors:

Martin Popel, et al.

Description:

Překladová služba založená na neuronové síti nabízí uživatelsky přívětivé rozhraní, které vám umožní snadno využívat modely natrénované našimi experty.

Project home Run

Strojový překlad

Authors:

Martin Popel, Dušan Variš, Ondřej Košarko

Description:

Překladová služba skrze jednoduché UI a API zpřístupňuje modely neuronových sítí natrénované našimi experty. V současnosti je k dispozici pět modelů a postupně budou přibývat další.

Project home Run

UDPipe

Authors:

Milan Straka, Jana Straková

Description:

UDPipe je trénovatelný nástroj pro tokenizaci, tagging, lemmatizaci a závislostní parsing CoNLL-U souborů. UDPipe je jazykově nezávislý a pro natrénování jazykového modelu stačí označkovaná data v CoNLL-U formátu. Předtrénované jazykové modely jsou k dispozici pro téměř všechny UD korpusy. UDPipe je k dispozici jako spustitelný soubor, jako knihovna pro C++, Python, Perl, Java, C#, a také jako webová služba. UDPipe je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.

Project home Run

NameTag

Authors:

Milan Straka, Jana Straková

Description:

NameTag je open-source nástroj pro rozpoznávání jmenných entity (Named Entity Recognition - NER). NameTag identifikuje vlastní jména v textu a zařazuje je do předem definovaných kategorií, jako jsou názvy osob, míst, organizací, atd. NameTag je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje NameTag state-of-the-art výkonu (Straková et al.,. 2013). NameTag je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použítá k vytvoření modelu implikovat další licenční podmínky.

Project home Run

MorphoDiTa: morfologický slovník a tagger

Authors:

Milan Straka, Jana Straková

Description:

MorphoDiTa (morfologický slovník a tagger) je open-source nástroj pro morfologickou analýzu textů v přirozených jazycích. Provádí morfologickou analýzu, morfologické generování, tagování a tokenizaci a je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje MorphoDiTa state-of-the-art výsledků s průchodností kolem 10-200K slov za sekundu. MorphoDiTa je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použitá k vytvoření modelu implikovat další licenční podmínky.

Project home Run

Treex::Web - vysoce modulární NLP framework online

Authors:

Martin Popel, Zdeněk Žabokrtský, Jan Ptáček, Petr Pajas

Description:

Treex (dříve TectoMT) je vysoce modulární NLP softwarový systém implementovaný pod Linuxem v programovacím jazyce Perl. Systém je zaměřený především na strojový překlad a využívá myšlenek a technologií vytvořených v rámci projektu Prague Dependency Treebank. Zároveň se předpokládá, že může významně usnadnit a urychlit vývoj softwarových řešení mnoha dalších úkolů NLP, a to zejména s ohledem na znovuvyužitelnost mnoha integrovaných procesních modulů (tzv. bloků), které jsou vybaveny jednotným objektově orientovaným rozhraním.

Project home Run

Česílko - systém pro strojový překlad úzce příbuzných jazyků

Authors:

Jan Hajič, Vladislav Kuboň, Petr Homola

Description:

Systém Česílko byl navržen jako nástroj pro rychlý a efektivní překlad z jednoho zdrojového jazyka do mnoha cílových jazyků, které jsou si vzájemně blízké. Systém přijímá na vstupu vysoce kvalitní lidský překlad originálu do češtiny (z jakéhokoliv jazyka) a překládá český vstup do mnoha jazyků příbuzných češtině. Systém aktuálně obsahuje 5 jazykových párů, 4 z nich jen jako experimenty, zejména z češtiny do polštiny, litevštiny, makedonštiny a dolnolužické srbštiny. Bohužel, systém nemůže být testován na libovolných textech pro tyto jazykové páry z důvodu malé velikosti všech slovníků. Jediný funkční jazykový pár (a zároveň i využitelný mimo výše uvedené podmínky) je pátý, z češtiny do slovenštiny. Podobně jako jiné systémy pro strojový překlad i Česílko vyžaduje dodatečné úpravy lidmi. Systém je vyvíjen od roku 1998.

Project home Run

PML-Tree Query - vyhledávací nástroj pro všechny druhy lingvisticky anotovaných stromových korpusů

Authors:

Petr Pajas, Jan Štěpánek

Description:

PML-TQ je výkonný open-source vyhledávací nástroj pro všechny druhy lingvisticky anotovaných treebanků s několika klientskými rozhraními a dvěma vyhledávácími backendy (jedním založeným na SQL databázi a druhým na Perlu a TrEd toolkitu) , Nástroj nativně pracuje s treebanky zakódovanými v PML formátu (konverzní skripty jsou k dispozici pro mnoho zavedených treebankových formátů).

Project home Run

PDT-Vallex - český valenční slovník s odkazy do treebanků

Authors:

Zdeňka Urešová, Jan Štěpánek, Jan Hajič, Jarmila Panevová, Marie Mikulová

Description:

Valenční slovník PDT-Vallex byl vytvořen v těsné vazbě na anotaci projektu Prague Dependency Treebank (PDT) a jeho nástupců (zejména projektu Prague Czech-English Dependency Treebank, PCEDT). Obsahuje více než 11.000 valenčních rámců pro více než 7000 sloves, která se vyskytovala v PDT nebo PCEDT. Je k dispozici v elektronicky zpracovatelném formátu (XML) spolu s výše uvedenými treebanky (prohledávatelnými a editovatelnými pomocí TrEdu, hlavního anotačního nástroje PDT/PCEDT), a také v čitelnější podobě spolu s příklady z korpusů (viz odkaz na webové stránky níže). Hlavním rysem slovníku je jeho propojení s anotovanými korpusy - každý výskyt každého slovesa je propojen s příslušným valenčním rámcem s další (zobecněnou) informací o způsobu jeho použití a alternativních povrchových morfosyntaktických formách.

Project home Run

EngVallex - anglický valenční slovník

Authors:

Silvie Cinková, Eva Fučíková, Jana Šindlerová, Jan Hajič

Description:

EngVallex je anglickým protějškem valenčního slovníku PDT-Vallex, využívajícím stejný náhled na valenci, valenční rámce a popis povrchové formy slovesných argumentů. EngVallex obsahuje i odkazy do PropBanku a Verbnetu, dvou existujících anglických predikátově-argumentových slovníků používaných m.j. v projektu PropBank. Slovník EngVallex je plně propojený s anglickou částí paralelního treebanku PCEDT, který je ve skutečnosti PTB přeanotovaným anotačním stylem používaným v projektu Prague Dependency Treebank. EngVallex je v našem archivu k dispozici ve formátu XML a je také k dispozici v prohledávatelné podobě (viz níže uvedený odkaz na webové stránky) s příklady z PCEDT.

Project home Run

CzEngVallex - česko anglický valenční slovník

Authors:

Zdeňka Urešová, Eva Fučíková, Jan Hajič, Jana Šindlerová

Description:

CzEngVallex je dvojjazyčný valenční slovník, který obsahuje provázané dvojice českých a anglických sloves. Zahrnuje 20835 odpovídajících slovesných dvojic (překladových ekvivalentů) valenčních rámců (významů slovesa) a zachycuje také propojení jejich argumentů. Tato databáze dvojic rámců a jejich argumentů je založena na reálných textech a může být využita například v aplikacích pro strojový překlad. Používá data z projektu Prague Czech-English Dependency Treebank (PCEDT 2.0) a těží také ze dvou již existujících valenčních slovníků (PDT-Vallexu pro češtinu a EngVallexu pro angličtinu) zpracovaných na základě stejného přístupu k valenci (vytvořeného v rámci teorie Funkčního generativního popisu). Slovník CzEngVallex je dostupný v XML formátu v repozitáři LINDAT/CLARIN. Pro jeho prohlížení lze využít též prohlížeč (viz záložka Aplikace), kde je provázán se slovníky PDT-Vallex, EngVallex a také s příklady z PCEDT.

Project home Run

SynSemClass - ontologie typů událostí pro česká, anglická, německá a španělská slovesa

Authors:

Zdeňka Urešová, Cristina Fernández Alcaina, Peter Bourgonje, Eva Fučíková, Jan Hajič, Eva Hajičová, Georg Rehm, Kateřina Rysová, Karolina Zaczynska

Description:

SynSemClass lexikon verze 5.1 zkoumá kontextovou sémantickou „ekvivalenci“ českých, anglických, německých a španělských sloves spolu s jejich valenčním chováním v paralelních česko-anglických, německo-anglických a španělsko-anglických textech. SynSemClass5.1 je ontologie založená na třídách vícejazyčných slovesných synonym, doplněných sémantickými rolemi. Ontologie je obohacena o značné množství nových tříd a ve srovnání se staršími verzemi je novinkou zařazení španělšských synonym. Opět obsahuje i odkazy do jiných sémantických lexikálních zdrojů. Kromě již použitých odkazů do PDT-Vallexu, EngVallexu, CzEngVallexu, FrameNetu, VerbNetu, PropBanku, Ontonotes, anglického WordNetu, Woxikonu, E-VALBU, GUPu a německého FrameNetu jsou ve slovníku zařazeny nově i odkazy do španělských jazykových lexikálních zdrojů: do ADESSE, SenSemu, AnCory a španělského WordNetu a FrameNetu. Slovník zároveň obsahuje příklady vět, v nichž byla vícejazyčná synonyma použita.

Project home Run

SynSemClass Search Tool

Authors:

Nataliia Petliak, Jan Hajič, Zdeňka Urešová, Eva Fučíková

Description:

SynSemClassSearch je webové rozhraní určené pro vyhledávání v ontologii SynSemClass (verze 4.0 a vyšší). Tento vyhledávací nástroj poskytuje několik možností vyhledávání a kritéria pro vytváření komplexních dotazů. Výsledky vyhledávání jsou prezentovány v přehledném a uživatelsky přívětivém interaktivním formátu. Nástroj navíc nabízí API, které uživatelům umožňuje načíst výsledky vyhledávání totožné s uživatelským rozhraním, nebo získat odpověď vhodnou pro další zpracování.

Project home Run

Internetová jazyková příručka

Authors:

Ústav pro jazyk český, Akademie věd České republiky; NLP centrum na Fakultě informatiky Masarykovy univerzity

Description:

Internetová jazyková příručka (IRLB) byla vytvořen dvěma spolupracujícími týmy - týmem z Ústavu pro jazyk český Akademie věd České republiky a týmem NLP centra na Fakultě informatiky Masarykovy univerzity (2004-2008). Nástroj se skládá ze dvou částí: slovníkové a referenční (výkladové). Komentáře a připomínky jsou vítány a měly by být zaslány na adresu poradna@ujc.cas.cz. 1. Slovníková část Obsahuje více než 60 000 slovníkových hesel a je založena na heslech školních Pravidel českého pravopisu, Slovníku spisovné češtiny a vybraných hesel z Nového slovníku cizích slov a Slovníku neologismů. Záznamy obvykle obsahují informace, které jsou často dotazované uživateli. Díky morfologickému analyzátoru Ajka vytvořenému na Fakultě informatiky MU jsou v tabulkové formě k dispozici také vyskloňované tvary jednotlivých slov. Slovníková část je propojena s výkladovou hypertextovými odkazy. 2 Referenční část Je tvořena vysvětleními jazykových jevů popsaných v Pravidlech českého pravopisu a současných českých gramatikách, na které se opakovaně a často dotazují uživatelé prostřednictvím poradní linky Ústavu pro jazyk český. V nabízených vysvětleních jsou rozebrány vybrané typické pravopisné problémy včetně uvedení vhodných doporučení. ILRB je pravidelně aktualizována a doplňována, jsou přidávány a upřesňovány nové výrazy.

Project home Run

ElixirFM

Authors:

Otakar Smrž

Description:

ElixirFM je vyskoúrovňová implementace funkční arabské morfologie. ElixirFM může zpracovávat slova moderní psané arabštiny ve čtyřech různých režimech. Zde se můžete dozvědět, jak používat tyto režimy k různým účelům.

Project home Run

Dialogy.Org

Authors:

Nino Peterek

Description:

Systém Dialogy.Org umožňuje uživatelům prohledávat texty (přepisy), sledovat videonahrávky a zobrazovat F0 akustické vlny. Systém Dialogy.Org pracuje na principu webového rozhraní, takže instalace dalších programů na vašem počítači není nutná. Musíte mít Flash Player pro přehrávání videozáznamů.

Project home Run

Korektor

Authors:

Michal Richter, Pavel Straňák, Milan Straka

Description:

Korektor je statistický nástroj pro kontrolu pravopisu a (částečně) gramatiky. Tento nástroj vznikl jako součást diplomové práce Michala Richtera Pokročilý korektor češtiny, ale je dále rozvíjen. Existují dvě verze: unixová command-line utilita (testováno na Debian, Ubuntu a OS X) a OS X SpellServer se systémovou službou, která je integrována do nativních OS X GUI aplikací.

Project home Run

KonText

Authors:

NLP centrum, Masarykova univerzita (Brno), Ústav Českého národního korpusu (Praha), Ústav formální a aplikované lingvistiky (Praha)

Description:

Kontext je jednoduchá webová aplikace pro dotazování korpusů dostupných v rámci projektu LINDAT/CLARIN. Umožňuje vyhodnocení jednoduchých i složitých dotazů, zobrazení jejich výsledků jako konkordancí, výpočet rozložení četnosti, výpočet vztahových metrik pro slovní spojení a další práci s jazykovými daty. Tato instance je forkem aplikace KonText (vytvořené Ústavem Českého národního korpusu), která byla dále rozšířena na Ústavu formální a aplikované lingvistiky, tak aby vyhovovala potřebám projektu LINDAT/CLARIN.

Project home Run

Keyword Extractor

Authors:

Jindřich Libovický

Description:

KER je extraktor klíčových slov, který byl navržen pro naskenované texty v češtině a angličtině. Je založen na standardním tf-idf algoritmu. Idf tabulky jsou natrénovány na textech z Wikipedie. S řídkostí dat se vypořádává předzpracováním textů morfologickým slovníkem a taggerem Morphodita.

Project home Run

EVALD 4.0

Authors:

Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva

Description:

Software EVALD 4.0 slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných rodilými mluvčími češtiny.

Project home Run

EVALD 4.0 pro cizince

Authors:

Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva

Description:

Software EVALD 1.0 pro cizince slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny.

Project home Run

EVALD 4.0 pro začátečníky

Authors:

Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva

Description:

Software EVALD 4.0 pro začátečníky slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny - začátečníky.

Project home Run

UWebASR

Authors:

Jan Švec, Martin Bulín, Aleš Pražák

Description:

UWebASR je uživatelsky přívětivý webový ASR engine pro češtinu a slovenštinu. Je volně použitelný pro výzkumné účely a nevyžaduje žádné znalosti o vnitřním fungování enginu nebo API. Nahraný zvukový záznam je automaticky přepsán a uložen ve strukturovaném XML formátu, který umožňuje efektivní ruční post-processing.

Project home Run

TEITOK

Authors:

Maarten Janssen

Description:

TEITOK je online platforma pro vyhledávání, vizualizaci a správu jazykových korpusů, ve které jsou soubory korpusu uchovávány v bohatém formátu souborů TEI / XML. Na LINDATu je TEITOK integrován s Kontextem a PML-TQ, které umožňují přístup ke stejnému korpusu z řady různých rozhraní.

Project home Run

Podmínky užívání

Most popular

Text processing

Vyhledávací služby

Lexikální zdroje

Rozpoznávání mluvené řeči