EN | CZ

Korpus SiR

Korpus SiR je kolekce článků publikovaných na serveru iRozhlas s ruční anotací citací. Například ve větě Jak už vědci uvedli při prvním kole vykopávek, jde pro ně o záhadu. se citační frází uvedli odkazuje na citační zdroj vědci, kteři poskytli příslušnou informaci. Ruční anotace citací byla organizována jako anotační úloha pro studenty FSV UK. Studenti označovali a propojovali citační fráze a zdroje a určovali typ zdroje. Celkem 290 studentů anotovalo 1 718 článků (publikovány jako SiR 1.0 v repozitáři Lindat/CLARIAH-CZ). Dvojitě a trojitě anotované články (589 z celkových 1 718) jsou k dispozici zde pro vyhledávání. Podrobnosti k anotační úloze jsou uvedeny zde.

Citační zdroje jsou klasifikovány do těchto kategorií:

Also, the articles were automatically processed with linguistic procedures UDPipe for morphology and surface syntax, and with NameTag for named entities recognicion.

Procházet

Články (dokumenty) s anotacemi je možné prohlížet přes následující filtry   

Automaticky doplněné lingvistické informace jsou dostupné přes odkazy na konci každého dokumentu, viz Zobrazení syntaktické závislosti a Jmenné entity. Tyto informace je možné využít při vyhledávání v článcích, např. při identifikaci citačních zdrojů rodu mužského životného:

Hledat

Pro hledání v korpusu používáme jazyk CQL. Připravili jsme několik ilustračních dotazů s popisy, viz Hledat.

GitHub

Máte-li jakékoli otázky či komentáře, pošlete prosím e-mail na adresu zdroj@ufal.mff.cuni.cz nebo přidejte issue na GitHub.

Publikace

Poděkování

Práce na korpusu je financována z projektu Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů. Manuální anotace dat proběhla jako anotační úloha pro studenty kurzů "Digitální komunikace a práce s informacemi" a "Etika pro novináře" na Fakultě sociálních vět Univerzity Karlovy s cílem procvičit vybrané teoretické žurnalistické koncepty.