dc.contributor.author | QasemiZadeh, Behrang |
dc.date.accessioned | 2015-11-11T18:04:14Z |
dc.date.available | 2015-11-11T18:04:14Z |
dc.date.issued | 2015-11-11 |
dc.identifier.uri | http://hdl.handle.net/11372/LRT-1547 |
dc.description | FASpell dataset was developed for the evaluation of spell checking algorithms. It contains a set of pairs of misspelled Persian words and their corresponding corrected forms similar to the ASpell dataset used for English. The dataset consists of two parts: a) faspell_main: list of 5050 pairs collected from errors made by elementary school pupils and professional typists. b) faspell_ocr: list of 800 pairs collected from the output of a Farsi OCR system. |
dc.language.iso | fas |
dc.publisher | Behrang-QasemiZadeh |
dc.rights | Creative Commons - Attribution 4.0 International (CC BY 4.0) |
dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ |
dc.source.uri | http://pars.ie/lr/faspell_dataset |
dc.subject | spellchecking |
dc.subject | spellchecker |
dc.subject | Evaluation Dataset for Automatic Spell Checking |
dc.title | FAspell |
dc.type | lexicalConceptualResource |
metashare.ResourceInfo#ContentInfo.mediaType | text |
metashare.ResourceInfo#ContentInfo.detailedType | wordList |
dc.rights.label | PUB |
has.files | yes |
branding | LRT + Open Submissions |
contact.person | QasemiZadeh Behrang behrangatoffice@gmail.com - |
size.info | 6300 entries |
files.size | 157480 |
files.count | 4 |
Files in this item
Download all files in item (153.79 KB)This item is
Creative Commons - Attribution 4.0 International (CC BY 4.0)
Publicly Available
and licensed under:Creative Commons - Attribution 4.0 International (CC BY 4.0)
- Name
- README
- Size
- 1008 bytes
- Format
- Unknown
- Description
- README
- MD5
- 45df1e6ccf5ef332eff063c47e3e678f
- Name
- LICENSE
- Size
- 674 bytes
- Format
- Unknown
- Description
- LICENSE
- MD5
- 3224ffe2a0a7cb48b26486f06d1665b0
- Name
- faspell_main.txt
- Size
- 136.36 KB
- Format
- Text file
- Description
- FASpell Part 1
- MD5
- 117657d86b0135c59f370751eea36d2b
#misspelt corrected error-category آاهي آگاهي 1 آبات آیات 1 آبباشد آب باشد 2 آبد آید 1 آبری عابری 0 آبو آب و 2 آت آن 1 آتاتنورك آتاتورك 1 آتان آنان 1 آتس آتش 1 آتشينتخصص آتشين تخصص 2 آتها آنها 1 آتهايي آنهايي 1 آدس آدرس 1 آذادگی آزادگی 1 آذار آزار 1 آذربايحان آذربايجان 1 آر آری 1 آراای آرایی 1 آرادي آزادي 1 آراع آراء 1 آردند آوردند 1 آروده آورده 3 آزاد يخلق آزادي خلق 0 آزادبار آزاد بار 2 آزازدي آزادي 1 آزايشات آزمايشات 1 آزم عازم 0 آزوقه آذوقه 1 آزير آژير 1 آسایشن آسایشند 1 آسباي آسیاي 1 آسبپذبري آسيبپذیری 1 آسفلت آسفالت 1 آسكار آشكار 1 آسودی آسودگی 1 آش پز خونه آشپزخونه 0 آش پزخانه آشپزخانه 0 آشاني آساني 1 آشته آشفته 1 آشسكارتر آشكارتر 1 آشنایمده آشناییم ده 2 آشنتي آشتي 1 آشورا عاشورا 1 آعاز آغاز 1 آغار آغاز 1 آغذز آغاز 1 آغشسته آغشته 1 آفریش آفرینش 1 آقريقا آفريقا 1 آلاودگي آلودگي 1 آلمنا آلمان 3 آلومينبيوم آلومينيوم 1 آلياژهيا آلياژها يا 0 آلياژهيا آلياژهای 3 آلژايمري آلزايمري 1 آمادسازي آمادهسازي 1 آمد ه آمده 0 آمدگي آ . . .
- Name
- faspell_ocr.txt
- Size
- 15.79 KB
- Format
- Text file
- Description
- FASpell Part 2 (OCR Data)
- MD5
- 4938e69477704e92df93f9ef7030faa2
#misspelt corrected آ!دبم آمدیم آر آن آرزاض آرژانتین آمد! م آمدیم أ!لبرزا آمیرزا أب آب أبد آید أخر آخر أداب آداب أدم آدم أسانى آسانی أشلنى آشتی أمار آمار أمد آمد أمد. آمده أمدذ آمدند أمده آمده أمو زش آموزش أموزش آموزش أميررا آمیرزا أن آن أنها آنها أورد آورد أورده آورده ئا تا ئبار تجار ئخث تخت ئعداد تعداد ئفرپط تقریباً ئمالهاى کتابهای ئمداد تعداد ئو تو ئوانند توانند ئوللاى تولیدی ا د ا ز اندازه ا لم ایم ابالا ایتالیا ابس آبش ابلى این ابم ایم ابن این اثزار افزار احازه اجازه اخار اخبار اخوورها آخوندها اد اند ادات انداخت ادم آدم ار آن ار از ارزب ارزید ارين ازین اس اش اس!ثاده استفاده استخرا استخراج استخرابم استخراج استناده استفاده اسدكاده استفاده اسصس اسمش اسلثاده استفاده اسنئاده استفاده اشخرابم استخراج اص است اعان اعیان افا آقا اكر اگر ال!ته البته الا اهل الاد الان الاق اتاق الب این البئ این البن این الت است التخالي انتخاب الث! اش الخاب انتخاب الداحند انداختند الدوحته اندوخته الراد افراد الز!ار افزار السب اسب . . .