Show simple item record

 
dc.contributor.author Ansari, Ebrahim
dc.contributor.author Žabokrtský, Zdeněk
dc.contributor.author Haghdoost, Hamid
dc.contributor.author Nikravesh, Mahshid
dc.date.accessioned 2019-06-28T13:20:51Z
dc.date.available 2019-06-28T13:20:51Z
dc.date.issued 2019-06-27
dc.identifier.uri http://hdl.handle.net/11234/1-3011
dc.description This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes.
dc.language.iso fas
dc.publisher Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
dc.rights Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
dc.rights.uri http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subject morphological analysis,
dc.subject lemmatization
dc.title Persian Morphologically Segmented Lexicon 0.5
dc.type lexicalConceptualResource
metashare.ResourceInfo#ContentInfo.mediaType text
metashare.ResourceInfo#ContentInfo.detailedType lexicon
dc.rights.label PUB
has.files yes
branding LINDAT / CLARIAH-CZ
contact.person Ebrahim Ansari ansari@ufal.mff.cuni.cz Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
contact.person Zdeněk Žabokrtský zdenek.zabokrtsky@mff.cuni.cz Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky CZ.02.2.69/0.0/0.0/16_027/0008495 OP VVV Mezinárodní mobilita výzkumných pracovníků Univerzity Karlovy nationalFunds
sponsor Grantová agentura České Republiky 19-14534S Popis slovotvorné struktury českých slov na základě jazykových dat nationalFunds
sponsor Ministerstvo školství, mládeže a tělovýchovy České republiky LM2015071 LINDAT/CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat nationalFunds
size.info 45300 words
files.size 2152189
files.count 4


 Files in this item

 Download all files in item (2.05 MB)
Icon
Name
readme.txt
Size
4.82 KB
Format
Text file
Description
README
MD5
4f7fbb0bbb6dd0c19e9417ae325355b7
 Download file  Preview
 File Preview  
This dataset includes 45300 Persian word forms which are manually segmented into sequences of morphemes. Lemmas and some extra information about those words are also included. Words are separated by "\n" and in each line (for each word) we have this information:
word lemma form ambiguity segments_1 segment_2 ... segment_n

where "form" could be one of these:
V: verb
E: Name entity word
I: Irregular plural
X: none of the above

and "ambiguity" field could be 0 which means the word has only one meaning and is 1 when the word has more than one meaning.

For more information about this dataset, you can see [1].
 

Methodology:
We extracted our primary word list from a collection of three corpora. The first one contains sentences extracted from the Persian Wikipedia [2]. The second one is a popular Persian corpusBijanKhan [3], and the last one is Persian Named Entity corpus [4]. For all those corpora, we used the Hazm toolkit (Persian preprocessing and tokenization tools) [5] and the stemm . . .
                                            
Icon
Name
train.txt
Size
1.66 MB
Format
Text file
Description
training set
MD5
2205b9ceb514b88431091893930cc4a3
 Download file  Preview
 File Preview  
آرمیک آرمیک E 0 آرمیک
آرنا آرنا E 0 آرنا
آرناس آرناس E 0 آرناس
آرنالدو آرنالدو E 0 آرنالدو
آرنت آرنت E 0 آرنت
آرنج آرنج X 0 آرنج
آرنجش آرنج X 0 آرنج ش
آرنج‌ها آرنج X 0 آرنج ها
آرندت آرندت E 0 آرندت
آرنلد آرنلد E 0 آرنلد
آرنو آرنو E 0 آرنو
آرنور آرنور E 0 آرنور
آرنولف آرنولف E 0 آرنولف
آرنی آرنی E 0 آرنی
آرنیوس آرنیوس E 0 آرنیوس
آرنیکه‌ها آرنیکه‌ X 0 آرنیکه ها
آره آره X 0 آره
آرواره آرواره X 0 آرواره
آرواره‌ای آرواره X 0 آرواره ای
آرواره‌ها آرواره X 0 آرواره ها
آرواره‌های آرواره X 0 آرواره ها ی
آروزی آروز X 0 آروز ی
آروس آروس E 0 آروس
آروشا آروشا E 0 آروشا
آروغ آروغ X 0 آروغ
آروماتیک آروماتیک X 0 آرومات یک
آروماتیکی آروماتیک X 0 آرومات یک ی
آروماتیک‌ها آروماتیک X 0 آرومات یک ها
آرونا آرونا E 0 آرونا
آرونسون آرونسون E 0 آرونسون
آرونوفسکی آرونوفسکی E 0 آرونوفسکی
آروو آروو E 0 آروو
آروین آروین E 0 آروین
آرویو آرویو E 0 آرویو
آرپ آرپ E 0 آرپ
آرپا آرپا X 0 آرپا
آرپانت آرپانت X 0 آرپا نت
آرپاچای آرپاچای X 0 آرپا چای
آرپژ آرپژ X 0 آرپژ
آرپی آرپی E 0 آرپی
آرپی‌جی آرپی‌جی X 0 آر پی جی
آرچ آرچ E . . .
                                            
Icon
Name
dev.txt
Size
197.25 KB
Format
Text file
Description
development set
MD5
ad5227aa79f421a109c90447b672d6d1
 Download file  Preview
 File Preview  
آرنه آرنه E 0 آرنه
آرنولد آرنولد E 0 آرنولد
آرورا آرورا E 0 آرورا
آرون آرون E 0 آرون
آرونیان آرونیان E 0 آرون ی ان
آریستید آریستید E 0 آریستید
آزاداسلامی آزاداسلامی X 0 آزاد اسلام ی
آزادانه آزادانه X 0 آزاد انه
آزادانه‌ای آزادانه X 0 آزاد انه ای
آزادانه‌تر آزادانه X 0 آزاد انه تر
آزادی‌بخش آزادی‌بخش E 0 آزاد ی بخش
آزادی‌خواهانه آزادی‌خواه X 0 آزاد ی خواه انه
آزوریت آزوریت X 0 آز ور یت
آس آس E 0 آس
آسانسور آسانسور X 0 آسانسور
آسانسورها آسانسور X 0 آسانسور ها
آسانسورهای آسانسور X 0 آسانسور ها ی
آسانسوری آسانسور X 0 آسانسور ی
آسایش آسایش E 0 آسای ش
آسایشگاه آسایشگاه X 0 آسای ش گاه
آسایشگاهی آسایشگاه X 0 آسای ش گاه ی
آسایشگاه‌های آسایشگاه X 0 آسای ش گاه ها ی
آسایشی آسایش X 0 آسای ش ی
آستنیت آستنیت X 0 آستن یت
آستیاگ آستیاگ E 0 آستیاگ
آسرایی آسرایی E 0 آسرا یی
آسپرگر آسپرگر X 0 آسپرگ ر
آس‌های آس‌ X 0 آس ها ی
آشتی‌جویانه آشتی‌جویانه X 0 آشتی جوی انه
آشر آشر E 0 آشر
آشوربانیپال آشوربانیپال E 0 آشوربانیپال
آشوکا آشوکا E 0 آشوکا
آشوکای آشوکای E 0 آشوکای
آشکار آشکار X 0 آشکار
آشکارا آشکارا X 0 آ . . .
                                            
Icon
Name
test.txt
Size
199.96 KB
Format
Text file
Description
test set
MD5
57d71429e62a0534ac06fff9be734465
 Download file  Preview
 File Preview  
آرنس آرنس E 0 آرنس
آرواره‌داران آرواره‌دار X 0 آرواره دار ان
آرودا آرودا E 0 آرودا
آرکین آرکین E 0 آرکین
آریاشهر آریاشهر X 0 آریا شهر
آزادشهر آزادشهر E 0 آزاد شهر
آزادماهی آزادماهی X 0 آزاد ماهی
آزادماهیان آزادماهی X 0 آزاد ماهی ان
آزادوار آزادوار X 0 آزاد وار
آزادواری آزادواری E 0 آزاد وار ی
آزرم آزرم E 0 آزرم
آزرمیدخت آزرمیدخت E 0 آزر می دخت
آزمودنی آزمودن X 0 آزمود نی
آزمودنی‌ها آزمودن X 0 آزمود نی ها
آسانژ آسانژ E 0 آسانژ
آستانه‌اشرفیه آستانه‌اشرفیه E 0 آستان ه اشرف یه
آسفالت آسفالت X 0 آسفالت
آسفالته آسفالت X 0 آسفالت ه
آسفالته‌است آسفالته‌است V 0 آسفالت ه است
آسفالته‌ای آسفالت X 0 آسفالت ه ای
آسفالتی آسفالت X 0 آسفالت ی
آسمان‌نما آسمان‌نما X 0 آسمان نما
آسوس آسوس X 0 آسوس
آشام آشام X 0 آشام
آشامی آشامی X 0 آشام ی
آشامیدن آشامیدن X 0 آشام ید ن
آشامیدنی آشامیدن X 0 آشام ید نی
آشام‌ها آشام‌ X 0 آشام ها
آشنایی‌زدایی آشنایی‌زدایی X 0 آشنا یی زدا یی
آشور آشور E 0 آشور
آشوراده آشوراده X 0 آشورا ده
آشورشناسی آشورشناسی X 0 آشور شناس ی
آشوری آشور E 0 آشور ی
آشوریان آشور E 0 آشور ی ان
آشوری . . .
                                            

Show simple item record