Treex::Web
Autoři:
Martin Popel, Zdeněk Žabokrtský, Jan Ptáček, Petr Pajas
Popis:
Treex (dříve TectoMT) je vysoce modulární NLP softwarový systém implementovaný pod Linuxem v programovacím jazyce Perl. Systém je zaměřený především na strojový překlad a využívá myšlenek a technologií vytvořených v rámci projektu Prague Dependency Treebank. Zároveň se předpokládá, že může významně usnadnit a urychlit vývoj softwarových řešení mnoha dalších úkolů NLP, a to zejména s ohledem na znovuvyužitelnost mnoha integrovaných procesních modulů (tzv. bloků), které jsou vybaveny jednotným objektově orientovaným rozhraním.
 
 
Česílko
Autoři:
Jan Hajič, Vladislav Kuboň, Petr Homola
Popis:
Systém Česílko byl navržen jako nástroj pro rychlý a efektivní překlad z jednoho zdrojového jazyka do mnoha cílových jazyků, které jsou si vzájemně blízké. Systém přijímá na vstupu vysoce kvalitní lidský překlad originálu do češtiny (z jakéhokoliv jazyka) a překládá český vstup do mnoha jazyků příbuzných češtině. Systém aktuálně obsahuje 5 jazykových párů, 4 z nich jen jako experimenty, zejména z češtiny do polštiny, litevštiny, makedonštiny a dolnolužické srbštiny. Bohužel, systém nemůže být testován na libovolných textech pro tyto jazykové páry z důvodu malé velikosti všech slovníků. Jediný funkční jazykový pár (a zároveň i využitelný mimo výše uvedené podmínky) je pátý, z češtiny do slovenštiny. Podobně jako jiné systémy pro strojový překlad i Česílko vyžaduje dodatečné úpravy lidmi. Systém je vyvíjen od roku 1998.
 
 
PML-Tree Query
Autoři:
Petr Pajas, Jan Štěpánek
Popis:
PML-TQ je výkonný open-source vyhledávací nástroj pro všechny druhy lingvisticky anotovaných treebanků s několika klientskými rozhraními a dvěma vyhledávácími backendy (jedním založeným na SQL databázi a druhým na Perlu a TrEd toolkitu) , Nástroj nativně pracuje s treebanky zakódovanými v PML formátu (konverzní skripty jsou k dispozici pro mnoho zavedených treebankových formátů).
 
 
PDT-Vallex
Autoři:
Zdeňka Urešová, Jan Štěpánek, Jan Hajič, Jarmila Panevová, Marie Mikulová
Popis:
Valenční slovník PDT-Vallex byl vytvořen v těsné vazbě na anotaci projektu Prague Dependency Treebank (PDT) a jeho nástupců (zejména projektu Prague Czech-English Dependency Treebank, PCEDT). Obsahuje více než 11.000 valenčních rámců pro více než 7000 sloves, která se vyskytovala v PDT nebo PCEDT. Je k dispozici v elektronicky zpracovatelném formátu (XML) spolu s výše uvedenými treebanky (prohledávatelnými a editovatelnými pomocí TrEdu, hlavního anotačního nástroje PDT/PCEDT), a také v čitelnější podobě spolu s příklady z korpusů (viz odkaz na webové stránky níže). Hlavním rysem slovníku je jeho propojení s anotovanými korpusy - každý výskyt každého slovesa je propojen s příslušným valenčním rámcem s další (zobecněnou) informací o způsobu jeho použití a alternativních povrchových morfosyntaktických formách.
 
 
EngVallex
Autoři:
Silvie Cinková, Eva Fučíková, Jana Šindlerová, Jan Hajič
Popis:
EngVallex je anglickým protějškem valenčního slovníku PDT-Vallex, využívajícím stejný náhled na valenci, valenční rámce a popis povrchové formy slovesných argumentů. EngVallex obsahuje i odkazy do PropBanku a Verbnetu, dvou existujících anglických predikátově-argumentových slovníků používaných m.j. v projektu PropBank. Slovník EngVallex je plně propojený s anglickou částí paralelního treebanku PCEDT, který je ve skutečnosti PTB přeanotovaným anotačním stylem používaným v projektu Prague Dependency Treebank. EngVallex je v našem archivu k dispozici ve formátu XML a je také k dispozici v prohledávatelné podobě (viz níže uvedený odkaz na webové stránky) s příklady z PCEDT.
 
 
CzEngVallex
Autoři:
Zdeňka Urešová, Eva Fučíková, Jan Hajič, Jana Šindlerová
Popis:
CzEngVallex je dvojjazyčný valenční slovník, který obsahuje provázané dvojice českých a anglických sloves. Zahrnuje 20835 odpovídajících slovesných dvojic (překladových ekvivalentů) valenčních rámců (významů slovesa) a zachycuje také propojení jejich argumentů. Tato databáze dvojic rámců a jejich argumentů je založena na reálných textech a může být využita například v aplikacích pro strojový překlad. Používá data z projektu Prague Czech-English Dependency Treebank (PCEDT 2.0) a těží také ze dvou již existujících valenčních slovníků (PDT-Vallexu pro češtinu a EngVallexu pro angličtinu) zpracovaných na základě stejného přístupu k valenci (vytvořeného v rámci teorie Funkčního generativního popisu). Slovník CzEngVallex je dostupný v XML formátu v repozitáři LINDAT/CLARIN. Pro jeho prohlížení lze využít též prohlížeč (viz záložka Aplikace), kde je provázán se slovníky PDT-Vallex, EngVallex a také s příklady z PCEDT.
 
 
Autoři:
Jan Hajič
Popis:
Toto rozhraní se připojí k morfologickému serveru, který provádí morfologickou analýzu českých slovních forem. Výsledky jsou prezentovány v tabulkové formě s barevným zvýrazněním, ze které je možné se jedním kliknutím dostat na detailnější, srozumitelný popis. Hlavními rysy rozhraní a morfologického serveru jsou: 100% kompatibilita s programem HMAnalyze.pl pro dávkové morfologické zpracování využívajícím 50k verzi českého morfologického slovníku (zahrnujícím i tokenizaci vstupního textu) Možnost spuštění taggeru namísto prostého morfologického analyzátoru; tagger používá pokročilejší morfologický slovník a statistická pravidla pro disambiguaci. Současná verze morfologie používané taggerem je CZ11122a. Možnost zobrazení základních informací o frekvenci slovních forem a lemmat, vypočtených z rozsáhlého Českého národního korpusu. Rozhraní umožňuje použít různá kódování, a to jak pro vstupní slovní formy tak pro výstup (zobrazení) výsledků, pro případ, že byste měli potíže se zadáváním a/nebo zobrazováním českých znaků (které jsou součástí znakové sady Latin 2). Rozhraní umožňuje morfologickému analyzátoru předat "Content Filtering" volby, které zajistí, že se použije stejná sada filtrovacích pravidel jako v případě použití "dávkové" verze. Toto je také 100% kompatibilní s možnostmi filtrování v HMAnalyze.pl. Rozhraní obsahuje odkazy na různé stránky s nápovědou a dokumentací. Kromě toho jsou výsledky prezentovány jako "živé" odkazy na skripty, které vyrábí a zobrazují rozbor značek a informací o lemmatech v čitelné podobě.
 
 
MorphoDiTa
Autoři:
Milan Straka, Jana Straková
Popis:
MorphoDiTa (morfologický slovník a tagger) je open-source nástroj pro morfologickou analýzu textů v přirozených jazycích. Provádí morfologickou analýzu, morfologické generování, tagování a tokenizaci a je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje MorphoDiTa state-of-the-art výsledků s průchodností kolem 10-200K slov za sekundu. MorphoDiTa je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použitá k vytvoření modelu implikovat další licenční podmínky.
 
 
NameTag
Autoři:
Milan Straka, Jana Straková
Popis:
NameTag je open-source nástroj pro rozpoznávání jmenných entity (Named Entity Recognition - NER). NameTag identifikuje vlastní jména v textu a zařazuje je do předem definovaných kategorií, jako jsou názvy osob, míst, organizací, atd. NameTag je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje NameTag state-of-the-art výkonu (Straková et al.,. 2013). NameTag je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použítá k vytvoření modelu implikovat další licenční podmínky.
 
 
Autoři:
Ústav pro jazyk český, Akademie věd České republiky; NLP centrum na Fakultě informatiky Masarykovy univerzity
Popis:
Internetová jazyková příručka (IRLB) byla vytvořen dvěma spolupracujícími týmy - týmem z Ústavu pro jazyk český Akademie věd České republiky a týmem NLP centra na Fakultě informatiky Masarykovy univerzity (2004-2008). Nástroj se skládá ze dvou částí: slovníkové a referenční (výkladové). Komentáře a připomínky jsou vítány a měly by být zaslány na adresu poradna@ujc.cas.cz. 1. Slovníková část Obsahuje více než 60 000 slovníkových hesel a je založena na heslech školních Pravidel českého pravopisu, Slovníku spisovné češtiny a vybraných hesel z Nového slovníku cizích slov a Slovníku neologismů. Záznamy obvykle obsahují informace, které jsou často dotazované uživateli. Díky morfologickému analyzátoru Ajka vytvořenému na Fakultě informatiky MU jsou v tabulkové formě k dispozici také vyskloňované tvary jednotlivých slov. Slovníková část je propojena s výkladovou hypertextovými odkazy. 2 Referenční část Je tvořena vysvětleními jazykových jevů popsaných v Pravidlech českého pravopisu a současných českých gramatikách, na které se opakovaně a často dotazují uživatelé prostřednictvím poradní linky Ústavu pro jazyk český. V nabízených vysvětleních jsou rozebrány vybrané typické pravopisné problémy včetně uvedení vhodných doporučení. ILRB je pravidelně aktualizována a doplňována, jsou přidávány a upřesňovány nové výrazy.
 
 
ElixirFM ​​
Autoři:
Otakar Smrž
Popis:
ElixirFM ​​je vyskoúrovňová implementace funkční arabské morfologie. ElixirFM ​​může zpracovávat slova moderní psané arabštiny ve čtyřech různých režimech. Zde se můžete dozvědět, jak používat tyto režimy k různým účelům.
 
 
Autoři:
Nino Peterek
Popis:
Systém Dialogy.Org umožňuje uživatelům prohledávat texty (přepisy), sledovat videonahrávky a zobrazovat F0 akustické vlny. Systém Dialogy.Org pracuje na principu webového rozhraní, takže instalace dalších programů na vašem počítači není nutná. Musíte mít Flash Player pro přehrávání videozáznamů.
 
 
Korektor
Autoři:
Michal Richter, Pavel Straňák, Milan Straka
Popis:
Korektor je statistický nástroj pro kontrolu pravopisu a (částečně) gramatiky. Tento nástroj vznikl jako součást diplomové práce Michala Richtera Pokročilý korektor češtiny, ale je dále rozvíjen. Existují dvě verze: unixová command-line utilita (testováno na Debian, Ubuntu a OS X) a OS X SpellServer se systémovou službou, která je integrována do nativních OS X GUI aplikací.
 
 
Autoři:
Ondřej Bojar, Aleš Tamchyna, Ondřej Cífka
Popis:
Moses je implementací statistického přístupu (neboli přístupu řízeného daty) ke strojovému překladu (MT). To je v současné době dominantní přístup v dané oblasti a je používán v online překladových systémech nasazených například v Googlu a Microsoftu. V poslední době náš hybridní systém Chimera, s Mosesem jako centrální komponentou, dosahoval v překladu z angličtiny do češtiny lepších výsledků než Google Translator.
 
 
Autoři:
NLP centrum, Masarykova univerzita (Brno), Ústav Českého národního korpusu (Praha), Ústav formální a aplikované lingvistiky (Praha)
Popis:
Kontext je jednoduchá webová aplikace pro dotazování korpusů dostupných v rámci projektu LINDAT/CLARIN. Umožňuje vyhodnocení jednoduchých i složitých dotazů, zobrazení jejich výsledků jako konkordancí, výpočet rozložení četnosti, výpočet vztahových metrik pro slovní spojení a další práci s jazykovými daty. Tato instance je forkem aplikace KonText (vytvořené Ústavem Českého národního korpusu), která byla dále rozšířena na Ústavu formální a aplikované lingvistiky, tak aby vyhovovala potřebám projektu LINDAT/CLARIN.
 
 
Parsito
Autoři:
Milan Straka
Popis:
Parsito je rychlý závislostní parser napsaný v C++ vydaný jako open-source. Parsito je založené na transition-based parsingu, má vysokou úspěšnost a dosahuje rychlosti 30 tisíc slov za sekundu. Parsito lze natrénovat na libovolných vstupních datech, bez nutnosti navrhovat jazykově závislé rysy, protože používá klasifikátor založený na neuronových sítích. K dispozici jsou natrénované modely pro všechny treebanky z projektu Universal Dependencies (37 treebanků k prosinci 2015). Parsito je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
 
 
Autoři:
Jindřich Libovický
Popis:
KER je extraktor klíčových slov, který byl navržen pro naskenované texty v češtině a angličtině. Je založen na standardním tf-idf algoritmu. Idf tabulky jsou natrénovány na textech z Wikipedie. S řídkostí dat se vypořádává předzpracováním textů morfologickým slovníkem a taggerem Morphodita.
 
 
UDPipe
Autoři:
Milan Straka, Jana Straková
Popis:
UDPipe je trénovatelný nástroj pro tokenizaci, tagging, lemmatizaci a závislostní parsing CoNLL-U souborů. UDPipe je jazykově nezávislý a pro natrénování jazykového modelu stačí označkovaná data v CoNLL-U formátu. Předtrénované jazykové modely jsou k dispozici pro téměř všechny UD korpusy. UDPipe je k dispozici jako spustitelný soubor, jako knihovna pro C++, Python, Perl, Java, C#, a také jako webová služba. UDPipe je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
 
 
EVALD 1.0
Autoři:
Rysová, Kateřina, Mírovský, Jiří, Novák, Michal, Rysová, Magdaléna
Popis:
Software EVALD 1.0 slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných rodilými mluvčími češtiny.
 
 
EVALD 1.0 pro cizince
Autoři:
Rysová, Kateřina, Mírovský, Jiří, Novák, Michal, Rysová, Magdaléna
Popis:
Software EVALD 1.0 pro cizince slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny.