Adaptivně administrované testy s dichotomně skórovanými položkami jsou již v odborné literatuře poměrně dobře popsány a v praxi jsou stále častěji využívány. Předložená studie popisuje a hlouběji analyzuje možnosti adaptivní administrace testů s polytomními položkami, které jsou nejčastěji využívány v široké oblasti diagnostiky osobnosti. Na základě rozboru adaptivní administrace testu NEO PI-R jsou prozkoumány výhody a nevýhody tohoto přístupu. Adaptivní administrace ve srovnání s plnou délkou testu úspěšně rekonstruuje úroveň všech měřených rysů, a to za použití výrazně nižšího počtu položek. Výrazným problémem je však nadužívání několika málo položek, které jsou charakteristické vysokou mírou rozlišovací účinnosti. Pro studii byl využit reprezentativní soubor osob, který byl sestaven za účelem standardizace dotazníku NEO PI-R v českých podmínkách (N = 2084). and Adaptive administration of NEO PI-R: limits and benefits
Adaptively administered tests with dichotomously scored items are already well described in the relevant literature and used in practice. The presented study analyses the possibilities of adaptive administration of test with polytomous items, which are commonly used in personality testing. Based on analysis of simulated adaptive administration of NEO PI-R, the limits and benefits of this approach are discussed. It was found that adaptive administration successfully and more effectively reconstructs the level of measured traits ADAPTIVNÍ ADMINISTRACE NEO PI-R: VÝHODY A OMEZENÍ1 MARTIN JELÍNEK, PETR KVĚTON, DALIBOR VOBOŘIL Psychologický ústav AV ČR, Brno in comparison with full scale administration. On the other hand, significant problem consists in overexposure of several items with highest item discrimination power. Representative sample built for the purposes of Czech standardization of NEO PI-R was used (N = 2084).
Súčasný vývoj v oblasti psychologického hodnotenia zdôrazňuje zlepšovanie metodológie a význam zvyšovania efektívnosti. Algoritmy počítačového adaptívneho testovania (CAT) založené na teórii odpovede na položku (IRT) ponúkajú zaujímavé príležitosti pre súčasnú optimalizáciu ako presnosti, tak aj efektívnosti merania. Tento článok prezentuje zistenia 15 výskumných štúdií z oblasti testovania schopností, klinickej psychológie, testovania osobnosti a zdravotníckej starostlivosti zameraných na skúmanie reliability, užitočnosti (v zmysle úspory položiek) a validity (v zmysle korelácií s existujúcimi nástrojmi) CAT. Celkovo sú zistenia povzbudivé – CAT poskytuje efektívny prostriedok pre získanie optimálneho množstva informácie potrebnej pre zodpovedanie posudzovanej otázky, a to využitím minimálneho množstva času a/alebo počtu položiek pre získanie danej informácie. CAT skóre silno korelovalo so skóre z celej položkovej banky (rozpätie r = 0,83 – 0,99) a stredne silno so zaužívanými nástrojmi (rozpätie r = 0,58 – 0,83) poskytujúc dôkazy pre reliabilitu, validitu a porovnateľnosť adaptívnych nástrojov. Avšak tieto výsledky sú založené hlavne na CAT simulačných štúdiách a preto sú potrebné ďalšie štúdie zahŕňajúce administráciu skutočných testov živým respondentom, aby tieto zistenia potvrdili. and Computerized adaptive testing: precision, validity and efficiency
Present developments in the area of psychological assessment place emphasis on methodological improvements and the importance of increasing effectiveness. Computerized adaptive testing (CAT) algorithms based on item response theory (IRT) offer attractive opportunities for simultaneously optimizing both measurement precision and efficiency. This article presents findings of 15 research studies from field of ability testing, clinical psychology, personality testing and health care designed to explore the reliability, utility (in terms of item savings) and validity (in terms of correlations with existing tools) of CAT. Overall, the findings are encouraging – CAT provides an efective means to gain an optimal amount of information needed to answer an assessment question, while keeping time and/or number of items required to obtain that information at a minimum. CAT score correlated high with score from the full item bank (range r = 0,83 – 0,99) and moderately with established measures (range r = 0,58 – 0,83) provide the evidence for reliability, validity and comparability of adaptive tools. However, these results are based mainly on CAT simulation studies and therefore additional Live-CAT studies (involves the administration of real tests to live examinees) are needed to confirm this pattern of findings.
a1_Cíle. Cílem této studie bylo: a) ověření diagnostické kvality jednotlivých položek Edinburgh Handedness Inventory (EHI) a b) určení vhodného počtu kategorií preference ruky v dětské populaci. Soubor. Celkem 366 účastníků (178 chlapců a 188 dívek) náhodně vybraných ze základních škol v Praze participovalo na této studii. Věk dětí se pohyboval od 8 do 12 roků a žádný z účastníků nevykazoval intelektové ani jazykové nedostatky. Statistická analýza. Rating scale model byl použit pro hodnocení diagnostické kvality jednotlivých položek v inventáři. Příslušný počet kategorií preference ruky na základě výsledků EHI byl stanoven pomocí analýzy latentních tříd. Chi-kvadrát testy a vnitrotřídní korelační koeficient byly použity pro další vyhodnocení získané kategorizace preference ruky., a2_Výsledky. Byly identifikovány dvě položky (zametání koštětem a otevírání krabice), které porušují Raschovy vlastnosti Rating scale modelu. Dále byly zjištěny dvě skupiny dětí, které jsou charakteristické konzistentním použitím buď pravé, nebo levé ruky (praváci a leváci) a skupina s nekonzistentní preferencí (nevyhranění). Výsledky studie naznačují, že hodnoty laterálního kvocientu LQ = 0 ± 60 a LQ = 0 ± 70 lze doporučit pro zařazení jedince do skupiny nevyhraněných. Omezení studie. Ve studii nebylo hodnoceno, zdali preference indikovaná v dotazníku odpovídá preferenci při reálně prováděných činnostech. Použití formátu odpovědí se třemi kategoriemi by mohlo být považováno za další omezení, jelikož původně navrhovaný nástroj využívá pět kategorií., b1_Objectives. The aim of this study was: a) to verify the diagnostic quality of the Edinburgh Handedness Inventory (EHI) items and b) to determine an appropriate number of hand preference categories in a children population. Sample and setting. A total of 366 participants (178 boys and 188 girls) randomly selected from elementary schools in Prague, Czech Republic participated in this study. Children’s age ranged from 8 to 12 years and none of the participants has reported any intellectual or language deficiencies. Statistical analysis. Polytomous item response theory model (Rating scale model) was used to evaluate the diagnostic quality of particular items in the inventory. Appropriate number of handedness categories based on the EHI results was determined using latent class analysis. Chisquare tests and intra-class correlation coefficient were used for further evaluation of the obtained handedness categorization., b2_Results. Two items (using a broom and opening a box) that violated the Rasch properties of the Rating scale model were identified. Two classes that were characterized by the predominant use of either right or left hand (right-handers and left-handers) and a class with inconsistent hand-preference (mixed-handers) were stated. Results of the study suggest that values of laterality quotient LQ=0±60 and LQ=0±70 could be recommended for assigning individuals into the mixed-handedness class. Study limitation. It was not assessed whether self-reported hand preference is in accordance with the real hand preference for the EHI items/ activities. Using a response format with three categories could be seen as another limitation since the originally proposed instrument utilized five categories., Martin Komarc, Ivana Harbichová, Jiří Tichý., and Obsahuje seznam literatury
Předložená studie se zabývá analýzou preference odpověďových kategorií v testu prostorové představivosti, který je součástí Testu studijních předpokladů (TSP). Test studijních předpokladů je sestaven z položek s jednou správnou odpovědí a čtyřmi distraktory. Výzkumný soubor tvořilo 2001 osob (52 % žen). Pomocí IRT modelu pro nominální kategorie bylo analyzováno pět testových položek. Pro jednotlivé odpověďové kategorie byly zjištěny pravděpodobnosti jejich volby podmíněné úrovní sledované schopnosti. Na základě těchto informací byly odvozeny hypotézy o roli distraktorů v rámci fungování položek. Výsledky psychometrické analýzy jsou diskutovány společně s informacemi získanými od autorského týmu TSP a testovaných osob, které se k testu mohly vyjádřit prostřednictvím oficiálního internetového diskusního fóra., Objectives. The presented study analyzes the preference of response categories in spatial reasoning test. The goal is to enhance comprehension of test behavior of respondents that deter-mines the choice of certain response category in multiple choice items. Subjects and setting. The sample consisted of 2001 subjects (52 % females), who attended entrance exams to Masaryk university, i.e. the Learning Potential Test. Each of the items in the test consisted of one correct answer and four distractors. Five items of the Spatial reasoning subtest were analyzed. Statistical analysis. Using IRT Nominal Categories Model, for each response category conditional probabilities of their preference based on ability level estimate were computed. Results. On the basis of acquired information the authors suggested hypotheses about the roles of distractors in items. These hypotheses were further discussed in conjunction with in-formation from test items reviewers and test-takers, who had the possibility to comment test items through official internet discussion forum. Study limitations. Suggested hypotheses about test behavior need to be further investigated., Petr Květon [et al.]., and Obsahuje seznam literatury