Soubory tohoto záznamu
Stáhnout všechny soubory záznamu (468.16 MB)Licenční kategorie:
Licence: Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)
Publicly Available
Licence: Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)
- Název
- urdu-tagged-corpus.gz
- Velikost
- 253.82 MB
- Formát
- application/x-gzip
- Popis
- Urdu Monolingual Tagged Corpus
- MD5
- 63d61d9ebae592598c41a6746ec9938b
- Název
- urdu-plain-text-corpus.gz
- Velikost
- 213.46 MB
- Formát
- application/x-gzip
- Popis
- Urdu Monolingual Plain Text Corpus
- MD5
- 100b1db9efd403ee677683b3268084d9
- Název
- urmono-lrec-2014.pdf
- Velikost
- 152.86 KB
- Formát
- Popis
- Urdu data description
- MD5
- 528b61b0dd860aff9e3fe8d9b3c31b80
- Název
- cleaning-tools.tar.gz
- Velikost
- 748.74 KB
- Formát
- application/x-gzip
- Popis
- Cleaning tools
- MD5
- 469377de9bbb6f900a2322547d2566d8
- cleaning-tools
- del_sentences_with_missing_spaces.pl879 B
- detectLanguage.pl1 kB
- filter_arabic_sentences.pl619 B
- del_invalid_utf8.pl417 B
- README796 B
- remove_repeated_chars.pl1 kB
- tok-dan.pl1 kB
- remove_sindhi_sentences.pl857 B
- detect_en_sentence.pl440 B
- langfeatures.dat3 MB
- convert-urNum-to-enNum.pl754 B
- clean-corpus.sh4 kB