Korpus SiR
Korpus SiR je kolekce článků publikovaných na serveru iRozhlas s ruční anotací citací. Například ve větě Jak už vědci uvedli při prvním kole vykopávek, jde pro ně o záhadu. se citační frází uvedli odkazuje na citační zdroj vědci, kteři poskytli příslušnou informaci. Ruční anotace citací byla organizována jako anotační úloha pro studenty FSV UK. Studenti označovali a propojovali citační fráze a zdroje a určovali typ zdroje. Celkem 290 studentů anotovalo 1 718 článků (publikovány jako SiR 1.0 v repozitáři Lindat/CLARIAH-CZ). Dvojitě a trojitě anotované články (589 z celkových 1 718) jsou k dispozici zde pro vyhledávání. Podrobnosti k anotační úloze jsou uvedeny zde.
Citační zdroje jsou klasifikovány do těchto kategorií:
- nepojmenované
- anonymnní (v článcích značka
anonymous
)
- anonymnní (v článcích značka
- anonymní částečně (
anonymous-partial
)
- oficiální - institucionální příslušnost
- politický (
official-political
)
- politický (
- nepolitický (
official-non-political
)
unofficial
)Also, the articles were automatically processed with linguistic procedures UDPipe for morphology and surface syntax, and with NameTag for named entities recognicion.
Procházet
Články (dokumenty) s anotacemi je možné prohlížet přes následující filtry
- Kvalita anotací
Několik článků bylo anotováno více studenty proto, aby bylo možné změřit mezianotátorskou shodu. Do verze korpusu 1.0 jsou zahrnuty články anotované dvakrát a třikrát. Anotace v článcích anotovaných třikrát byly zkontrolovány a opraveny čtvrtým anotátorem, viz 46 článkůProcházet > Kvalita anotací > xxx
. Anotace u článků anotovaných dvakrát zkontrolovány nebyly, a proto jsou v korpusu pouze ty anotace, na kterých se shodli oba anotátoři, viz 543 článkůProcházet > Kvalita anotací > xx.
- Autor
- Sekce
- Štítek
Automaticky doplněné lingvistické informace jsou dostupné přes odkazy na konci každého dokumentu, viz Zobrazení syntaktické závislosti
a Jmenné entity
.
Tyto informace je možné využít při vyhledávání v článcích,
např. při identifikaci citačních zdrojů rodu mužského životného:
Hledat
Pro hledání v korpusu používáme jazyk CQL. Připravili jsme několik ilustračních dotazů s popisy, viz Hledat.
GitHub
Máte-li jakékoli otázky či komentáře, pošlete prosím e-mail na adresu zdroj@ufal.mff.cuni.cz nebo přidejte issue na GitHub.
Publikace
- Hladká Barbora, Jiří Mírovský, Matyáš Kopp, Václav Moravec. Annotating Attribution in Czech News Server Articles. Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), pages 1817–1823, Marseille, France 20-25 June 2022. pdf
Poděkování
Práce na korpusu je financována z projektu Signál a šum v éře Žurnalistiky 5.0 - komparativní perspektiva novinářských žánrů automatizovaných obsahů. Manuální anotace dat proběhla jako anotační úloha pro studenty kurzů "Digitální komunikace a práce s informacemi" a "Etika pro novináře" na Fakultě sociálních vět Univerzity Karlovy s cílem procvičit vybrané teoretické žurnalistické koncepty.