Comparison of CAT procedures at low ability levels: A simulation study and analysis in the context of students with disabilities
Özet
Bilgisayar Ortamında Bireye Uyarlanmış Test (BOBUT) yönteminin temel iddialarından biri ölçülen özellik bakımından uçlarda yer alan yeterliklerde geleneksel testlere göre daha kesin ve güvenilir sonuçlar üretmesidir. Ancak, BOBUT’ta da uç yeteneklerin kestiriminin orta yetenektekilere göre daha düşük kesinlikte olduğu, yanlı sonuçlar elde edilebildiği bilinmektedir. Bu durum, BOBUT’un tüm yeterlik düzeylerini hedefleyen yapısına ters düşmektedir. Bu araştırmada, çeşitli BOBUT prosedürlerinin performanslarının karşılaştırarak, alt yetenek düzeylerinde, diğer yetenek düzeyleri ile uyuşan biçimde, daha iyi performans gösteren algoritmaları belirlemek amaçlanmıştır. Ek olarak geniş ölçekli test sonuçlarından yola çıkarak, belirlenen prosedürlerin özel gereksinimli öğrencilerin yeterliklerinde de benzer performans gösterip göstermeyeceği incelenmiştir. Araştırmada öncelikle Monte Carlo simülasyonu ile 1000 maddelik bir madde havuzu ve standart normal dağılım gösteren 1000 kişilik bir yetenek dağılımı oluşturulmuştur. Farklı madde seçme, yetenek kestirimi yöntemleri ve sonlandırma kurallarından oluşan 36 koşulun, uçlarda yer alan bireylerin kestirimindeki BOBUT performansları kıyaslanmıştır. Araştırma sonucunda, En çok olabilirlik yetenek kestirim yöntemi, Kullbak-Leibler bilgisi madde seçme kuralı, standart hata ve madde uzunluğu sınırı (20 madde) ile birlikte kullanılan standart hata test sonlandırma kurallarının; alt yeterlik düzeylerinde en iyi performans göstererek, yeterlik düzeyleri boyunca BOBUT performansı açısından tutarlılık gösteren bir algoritma oluşturduğu gözlenmiştir. Engeli olan öğrencilerin yeterlik düzeylerinde yüksek performans gösterdiği gözlenen ilgili prosedürler, gerçek veri ile onanmıştır. The estimation of extreme abilities in computerized adaptive testing (CAT) is more biased and less accurate than that of intermediate abilities. This situation contradicts the structure of CAT, which targets all ability levels. This research aims to determine the procedures that perform better at lower skill levels, in accordance with other ability levels, by comparing the performances of various CAT procedures. In addition, a large-scale test examined whether the determined procedures would show similar performance in the ability levels of students with disabilities, as a group unfortunately more often of extreme abilities and that CAT will offer advantages in many respects. A pool of 1000 items and 1000 examinees with standard normal ability distribution were simulated with Monte Carlo. The CAT performances of 36 conditions consisting of different item selection methods, ability estimation methods and termination rules were compared. As a result of the research, the precision criterion termination rule used together with the maximum likelihood ability estimation method, Kullbak-Leibler information item selection rule, and precision criterion termination rule with test length limit (20 items) performed better and more consistently in terms of CAT performance across the ability levels. These procedures show high performance in the ability levels of students with disabilities, also in real data.