Přejít k hlavnímu obsahu

JavaScript is disabled for your browser. Some features of this site may not work without it.
 
 
Strojový překlad
Authors:
Martin Popel, Dušan Variš, Ondřej Košarko
Description:
Překladová služba skrze jednoduché UI a API zpřístupňuje modely neuronových sítí natrénované našimi experty. V současnosti je k dispozici pět modelů a postupně budou přibývat další.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
UDPipe
Authors:
Milan Straka, Jana Straková
Description:
UDPipe je trénovatelný nástroj pro tokenizaci, tagging, lemmatizaci a závislostní parsing CoNLL-U souborů. UDPipe je jazykově nezávislý a pro natrénování jazykového modelu stačí označkovaná data v CoNLL-U formátu. Předtrénované jazykové modely jsou k dispozici pro téměř všechny UD korpusy. UDPipe je k dispozici jako spustitelný soubor, jako knihovna pro C++, Python, Perl, Java, C#, a také jako webová služba. UDPipe je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
NameTag
Authors:
Milan Straka, Jana Straková
Description:
NameTag je open-source nástroj pro rozpoznávání jmenných entity (Named Entity Recognition - NER). NameTag identifikuje vlastní jména v textu a zařazuje je do předem definovaných kategorií, jako jsou názvy osob, míst, organizací, atd. NameTag je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje NameTag state-of-the-art výkonu (Straková et al.,. 2013). NameTag je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použítá k vytvoření modelu implikovat další licenční podmínky.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
MorphoDiTa
Authors:
Milan Straka, Jana Straková
Description:
MorphoDiTa (morfologický slovník a tagger) je open-source nástroj pro morfologickou analýzu textů v přirozených jazycích. Provádí morfologickou analýzu, morfologické generování, tagování a tokenizaci a je distribuován jako samostatný nástroj nebo jako knihovna spolu s natrénovanými lingvistickými modely. V českém jazyce dosahuje MorphoDiTa state-of-the-art výsledků s průchodností kolem 10-200K slov za sekundu. MorphoDiTa je svobodný software pod LGPL licencí a jazykové modely jsou zdarma pro nekomerční použití a jsou distribuovány pod CC BY-NC-SA licencí, i když u některých modelů mohou původní data použitá k vytvoření modelu implikovat další licenční podmínky.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Treex::Web
Authors:
Martin Popel, Zdeněk Žabokrtský, Jan Ptáček, Petr Pajas
Description:
Treex (dříve TectoMT) je vysoce modulární NLP softwarový systém implementovaný pod Linuxem v programovacím jazyce Perl. Systém je zaměřený především na strojový překlad a využívá myšlenek a technologií vytvořených v rámci projektu Prague Dependency Treebank. Zároveň se předpokládá, že může významně usnadnit a urychlit vývoj softwarových řešení mnoha dalších úkolů NLP, a to zejména s ohledem na znovuvyužitelnost mnoha integrovaných procesních modulů (tzv. bloků), které jsou vybaveny jednotným objektově orientovaným rozhraním.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Česílko
Authors:
Jan Hajič, Vladislav Kuboň, Petr Homola
Description:
Systém Česílko byl navržen jako nástroj pro rychlý a efektivní překlad z jednoho zdrojového jazyka do mnoha cílových jazyků, které jsou si vzájemně blízké. Systém přijímá na vstupu vysoce kvalitní lidský překlad originálu do češtiny (z jakéhokoliv jazyka) a překládá český vstup do mnoha jazyků příbuzných češtině. Systém aktuálně obsahuje 5 jazykových párů, 4 z nich jen jako experimenty, zejména z češtiny do polštiny, litevštiny, makedonštiny a dolnolužické srbštiny. Bohužel, systém nemůže být testován na libovolných textech pro tyto jazykové páry z důvodu malé velikosti všech slovníků. Jediný funkční jazykový pár (a zároveň i využitelný mimo výše uvedené podmínky) je pátý, z češtiny do slovenštiny. Podobně jako jiné systémy pro strojový překlad i Česílko vyžaduje dodatečné úpravy lidmi. Systém je vyvíjen od roku 1998.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
PML-Tree Query
Authors:
Petr Pajas, Jan Štěpánek
Description:
PML-TQ je výkonný open-source vyhledávací nástroj pro všechny druhy lingvisticky anotovaných treebanků s několika klientskými rozhraními a dvěma vyhledávácími backendy (jedním založeným na SQL databázi a druhým na Perlu a TrEd toolkitu) , Nástroj nativně pracuje s treebanky zakódovanými v PML formátu (konverzní skripty jsou k dispozici pro mnoho zavedených treebankových formátů).
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
PDT-Vallex
Authors:
Zdeňka Urešová, Jan Štěpánek, Jan Hajič, Jarmila Panevová, Marie Mikulová
Description:
Valenční slovník PDT-Vallex byl vytvořen v těsné vazbě na anotaci projektu Prague Dependency Treebank (PDT) a jeho nástupců (zejména projektu Prague Czech-English Dependency Treebank, PCEDT). Obsahuje více než 11.000 valenčních rámců pro více než 7000 sloves, která se vyskytovala v PDT nebo PCEDT. Je k dispozici v elektronicky zpracovatelném formátu (XML) spolu s výše uvedenými treebanky (prohledávatelnými a editovatelnými pomocí TrEdu, hlavního anotačního nástroje PDT/PCEDT), a také v čitelnější podobě spolu s příklady z korpusů (viz odkaz na webové stránky níže). Hlavním rysem slovníku je jeho propojení s anotovanými korpusy - každý výskyt každého slovesa je propojen s příslušným valenčním rámcem s další (zobecněnou) informací o způsobu jeho použití a alternativních povrchových morfosyntaktických formách.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
EngVallex
Authors:
Silvie Cinková, Eva Fučíková, Jana Šindlerová, Jan Hajič
Description:
EngVallex je anglickým protějškem valenčního slovníku PDT-Vallex, využívajícím stejný náhled na valenci, valenční rámce a popis povrchové formy slovesných argumentů. EngVallex obsahuje i odkazy do PropBanku a Verbnetu, dvou existujících anglických predikátově-argumentových slovníků používaných m.j. v projektu PropBank. Slovník EngVallex je plně propojený s anglickou částí paralelního treebanku PCEDT, který je ve skutečnosti PTB přeanotovaným anotačním stylem používaným v projektu Prague Dependency Treebank. EngVallex je v našem archivu k dispozici ve formátu XML a je také k dispozici v prohledávatelné podobě (viz níže uvedený odkaz na webové stránky) s příklady z PCEDT.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
CzEngVallex
Authors:
Zdeňka Urešová, Eva Fučíková, Jan Hajič, Jana Šindlerová
Description:
CzEngVallex je dvojjazyčný valenční slovník, který obsahuje provázané dvojice českých a anglických sloves. Zahrnuje 20835 odpovídajících slovesných dvojic (překladových ekvivalentů) valenčních rámců (významů slovesa) a zachycuje také propojení jejich argumentů. Tato databáze dvojic rámců a jejich argumentů je založena na reálných textech a může být využita například v aplikacích pro strojový překlad. Používá data z projektu Prague Czech-English Dependency Treebank (PCEDT 2.0) a těží také ze dvou již existujících valenčních slovníků (PDT-Vallexu pro češtinu a EngVallexu pro angličtinu) zpracovaných na základě stejného přístupu k valenci (vytvořeného v rámci teorie Funkčního generativního popisu). Slovník CzEngVallex je dostupný v XML formátu v repozitáři LINDAT/CLARIN. Pro jeho prohlížení lze využít též prohlížeč (viz záložka Aplikace), kde je provázán se slovníky PDT-Vallex, EngVallex a také s příklady z PCEDT.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
Zdeňka Urešová, Eva Fučíková, Eva Hajičová, Jan Hajič
Description:
SynSemClass je slovník česko-anglických slovesných synonym. Základními hesly ve slovníku jsou dvojjazyčné česko-anglické slovesné synonymní třídy, v nichž jsou obsažena synonymní česká a anglická slovesa (členy třídy), reprezentovaná jako valenční rámce (tj. slovesné významy), jejichž pojetí vychází z teorie Funkčně generativního popisu jazyka. Sémantická ekvivalence jednotlivých členů třídy byla stanovena na základě jejich kontextového valenčního chování usouvztažněného k situačně-kognitivnímu obsahu (sémantickým rolím). Synonymické vztahy jsou ve slovníku chápány volně, jednotlivé členy třídy jsou ve vztahu nikoli striktní (úplné) synonymie, ale ve vztahu významové podobnosti, tj. částečné synonymie. Předností slovníku je použití paralelního česko-anglického korpusu PCEDT jako hlavního zdroje jazykových dat, které umožňuje tzv. "bottom-up" přístup, tj. od praxe k teorii. Předností slovníku je rovněž propojení všech členů jednotlivých synonymních tříd s dalšími lexikálními zdroji, a to s hesly valenčních slovníků (PDT-Vallex, EngVallex, CzEngVallex a Vallex), a s hesly sémantických databází (FrameNet, VerbNet, PropBank, Ontonotes a Wordnet).
Ústav formální a aplikované lingvistiky, Univerzita Karlova
 
 
Authors:
Ústav pro jazyk český, Akademie věd České republiky; NLP centrum na Fakultě informatiky Masarykovy univerzity
Description:
Internetová jazyková příručka (IRLB) byla vytvořen dvěma spolupracujícími týmy - týmem z Ústavu pro jazyk český Akademie věd České republiky a týmem NLP centra na Fakultě informatiky Masarykovy univerzity (2004-2008). Nástroj se skládá ze dvou částí: slovníkové a referenční (výkladové). Komentáře a připomínky jsou vítány a měly by být zaslány na adresu poradna@ujc.cas.cz. 1. Slovníková část Obsahuje více než 60 000 slovníkových hesel a je založena na heslech školních Pravidel českého pravopisu, Slovníku spisovné češtiny a vybraných hesel z Nového slovníku cizích slov a Slovníku neologismů. Záznamy obvykle obsahují informace, které jsou často dotazované uživateli. Díky morfologickému analyzátoru Ajka vytvořenému na Fakultě informatiky MU jsou v tabulkové formě k dispozici také vyskloňované tvary jednotlivých slov. Slovníková část je propojena s výkladovou hypertextovými odkazy. 2 Referenční část Je tvořena vysvětleními jazykových jevů popsaných v Pravidlech českého pravopisu a současných českých gramatikách, na které se opakovaně a často dotazují uživatelé prostřednictvím poradní linky Ústavu pro jazyk český. V nabízených vysvětleních jsou rozebrány vybrané typické pravopisné problémy včetně uvedení vhodných doporučení. ILRB je pravidelně aktualizována a doplňována, jsou přidávány a upřesňovány nové výrazy.
Ústav pro jazyk český, Akademie věd České republikyNLP centrum na Fakultě informatiky Masarykovy univerzity
 
 
ElixirFM ​​
Authors:
Otakar Smrž
Description:
ElixirFM ​​je vyskoúrovňová implementace funkční arabské morfologie. ElixirFM ​​může zpracovávat slova moderní psané arabštiny ve čtyřech různých režimech. Zde se můžete dozvědět, jak používat tyto režimy k různým účelům.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
Nino Peterek
Description:
Systém Dialogy.Org umožňuje uživatelům prohledávat texty (přepisy), sledovat videonahrávky a zobrazovat F0 akustické vlny. Systém Dialogy.Org pracuje na principu webového rozhraní, takže instalace dalších programů na vašem počítači není nutná. Musíte mít Flash Player pro přehrávání videozáznamů.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Korektor
Authors:
Michal Richter, Pavel Straňák, Milan Straka
Description:
Korektor je statistický nástroj pro kontrolu pravopisu a (částečně) gramatiky. Tento nástroj vznikl jako součást diplomové práce Michala Richtera Pokročilý korektor češtiny, ale je dále rozvíjen. Existují dvě verze: unixová command-line utilita (testováno na Debian, Ubuntu a OS X) a OS X SpellServer se systémovou službou, která je integrována do nativních OS X GUI aplikací.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
NLP centrum, Masarykova univerzita (Brno), Ústav Českého národního korpusu (Praha), Ústav formální a aplikované lingvistiky (Praha)
Description:
Kontext je jednoduchá webová aplikace pro dotazování korpusů dostupných v rámci projektu LINDAT/CLARIN. Umožňuje vyhodnocení jednoduchých i složitých dotazů, zobrazení jejich výsledků jako konkordancí, výpočet rozložení četnosti, výpočet vztahových metrik pro slovní spojení a další práci s jazykovými daty. Tato instance je forkem aplikace KonText (vytvořené Ústavem Českého národního korpusu), která byla dále rozšířena na Ústavu formální a aplikované lingvistiky, tak aby vyhovovala potřebám projektu LINDAT/CLARIN.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Parsito
Authors:
Milan Straka
Description:
Parsito je rychlý závislostní parser napsaný v C++ vydaný jako open-source. Parsito je založené na transition-based parsingu, má vysokou úspěšnost a dosahuje rychlosti 30 tisíc slov za sekundu. Parsito lze natrénovat na libovolných vstupních datech, bez nutnosti navrhovat jazykově závislé rysy, protože používá klasifikátor založený na neuronových sítích. K dispozici jsou natrénované modely pro všechny treebanky z projektu Universal Dependencies (37 treebanků k prosinci 2015). Parsito je svobodný software licencovaný pod Mozilla Public License 2.0 a jazykové modely jsou k dispozici pro nekomerční použití pod licencí CC BY-NC-SA, nicméně původní data použitá k vytvoření modelů mohou v některých případech ukládat další licenční omezení.
Ústav formální a aplikované lingvistiky, Univerzita Karlova v Praze
 
 
Authors:
Jindřich Libovický
Description:
KER je extraktor klíčových slov, který byl navržen pro naskenované texty v češtině a angličtině. Je založen na standardním tf-idf algoritmu. Idf tabulky jsou natrénovány na textech z Wikipedie. S řídkostí dat se vypořádává předzpracováním textů morfologickým slovníkem a taggerem Morphodita.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
EVALD
Authors:
Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva
Description:
Software EVALD 4.0 slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných rodilými mluvčími češtiny.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
EVALD pro cizince
Authors:
Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva
Description:
Software EVALD 1.0 pro cizince slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
 
EVALD pro začátečníky
Authors:
Novák, Michal, Mírovský, Jiří, Rysová, Kateřina, Rysová, Magdaléna, Hajičová, Eva
Description:
Software EVALD 4.0 pro začátečníky slouží k automatickému hodnocení povrchové koherence (koheze) textů v češtině psaných nerodilými mluvčími češtiny - začátečníky.
Institute of Formal and Applied Linguistics, Charles University in Prague
 
UWebASR
Authors:
Jan Švec, Martin Bulín, Aleš Pražák
Description:
UWebASR je uživatelsky přívětivý webový ASR engine pro češtinu a slovenštinu. Je volně použitelný pro výzkumné účely a nevyžaduje žádné znalosti o vnitřním fungování enginu nebo API. Nahraný zvukový záznam je automaticky přepsán a uložen ve strukturovaném XML formátu, který umožňuje efektivní ruční post-processing.
Katedra kybernetiky, Západočeská univerzita v Plzni
 
TEITOK
Authors:
Maarten Janssen
Description:
TEITOK je online platforma pro vyhledávání, vizualizaci a správu jazykových korpusů, ve které jsou soubory korpusu uchovávány v bohatém formátu souborů TEI / XML. Na LINDATu je TEITOK integrován s Kontextem a PML-TQ, které umožňují přístup ke stejnému korpusu z řady různých rozhraní.
Institute of Formal and Applied Linguistics, Charles University in Prague