Soubory tohoto záznamu

 Stáhnout všechny soubory záznamu (468.16 MB)
Licenční kategorie:
Publicly Available

Licence: Attribution-NonCommercial-ShareAlike 3.0 Unported (CC BY-NC-SA 3.0)
Distributed under Creative Commons Attribution Required Noncommercial Share Alike
Icon
Název
urdu-tagged-corpus.gz
Velikost
253.82 MB
Formát
application/x-gzip
Popis
Urdu Monolingual Tagged Corpus
MD5
63d61d9ebae592598c41a6746ec9938b
 Stáhnout soubor
Icon
Název
urdu-plain-text-corpus.gz
Velikost
213.46 MB
Formát
application/x-gzip
Popis
Urdu Monolingual Plain Text Corpus
MD5
100b1db9efd403ee677683b3268084d9
 Stáhnout soubor
Icon
Název
urmono-lrec-2014.pdf
Velikost
152.86 KB
Formát
PDF
Popis
Urdu data description
MD5
528b61b0dd860aff9e3fe8d9b3c31b80
 Stáhnout soubor
Icon
Název
cleaning-tools.tar.gz
Velikost
748.74 KB
Formát
application/x-gzip
Popis
Cleaning tools
MD5
469377de9bbb6f900a2322547d2566d8
 Stáhnout soubor  Náhled
 Náhled souboru  
  • cleaning-tools
    • del_sentences_with_missing_spaces.pl879 B
    • detectLanguage.pl1 kB
    • filter_arabic_sentences.pl619 B
    • del_invalid_utf8.pl417 B
    • README796 B
    • remove_repeated_chars.pl1 kB
    • tok-dan.pl1 kB
    • remove_sindhi_sentences.pl857 B
    • detect_en_sentence.pl440 B
    • langfeatures.dat3 MB
    • convert-urNum-to-enNum.pl754 B
    • clean-corpus.sh4 kB