Popis: |
öz PAKİSTANDAKİ 4. SINIF FEN VE URDU (ULUSAL DİL) BAŞARI TEST SORULARININ MADDE YANLILIĞI AÇISINDAN İNCLENMESİ Muhammad Bashir Gondal Doktora, Eğitim Bilimleri Bölümü Tez Yöneticisi: Prof. Dr. Giray Berberoğlu Mayıs 2001, 234 sayfa Bir test içinde belli gruplara yanlılık gösteren maddelerin belirlenmesi yansız ve geçerli ölçme sonuçlarının elde edilmesi için gerekli bir çalışma alanıdır. Bu çalışmanın birinci amacı Pakistanda uygulanmış olan 4. Sınıf fen ve Urdu (Ulusal dil) başarı testinde cinsiyete, yerleşim yerine (şehir veya köy) ve bölgelere göre yanlılık gösteren maddelerin madde karakteristik eğrilerine göre elde edilen alan indeksleri metodu ve Mantel Haenzel metodu belirlenmesidir. İkinci amacı, ise iki metodun birbirlerinin yerine kullanılıp kullanılmayacağını anlamak için elde edilen sorunların karşılaştırılmasıdır. Fen testine 2761 dördüncü sınıf öğrencisi (1359 kız, 1402 erkek, 1449 şehir, 1312 köy, 1639 bölge bir ve 1122 bölge iki), ve Urdu testine 2765 dördüncü sınıf öğrencisi (1361 kız, 1404 erke, 1437 şehir, 1328 köy, 1643 bölge bir ve 112 bölge) cevap vermiştir. Örneklem dört il ve devlet tarafından uygulanan alanlardan: Federally Administered Tribal areas, Federally Administered Northern areas, Azad DOKOHUffTASYOft MEBKIlt vVI Jammu Kashmir, and Islamabad Capital Territory equally, eşit ve gelişigüzel olarak seçilmiştir. Fen testi 35 tane üç seçenekli çoktan seçmeli sorudan, Urdu testi 52 tane sınırlandırılmış ve sınırlandırılmamış formattaki sorudan oluşmaktadır. Her iki metod her test için yanlı maddeleri gruplara göre belirlemektedir. Analiz sonuçları test maddelerindeki yanlılığın uniform (her yetenek düzeyinde aynı yönde) olduğunu göstermiştir. Soruları belirlemede iki metod arasındaki ilişki zayıftır. Bunun nedeni büyük olasılıkla Madde Tepki Kuramına dayalı model-veri uyumunun zayıf olmasından kaynaklanıyor olabilir. Sonuçlar bu çalışmada kullanılan örneklemlere benzer guruplara genellenebilinir. Bundan başka, test formatı, (seçenek sayısı, bir gurup için ortak seçeneklerin kullanılmış olması soru tarafından ölçülen bilişsel yeteneklerin düzeyi vb.) iki metod ile elde edilen yanlılık indekslerinin büyüklüklerini etkilemiş olabilir. Sonuçlar test geliştirme sürecinde çalışan kişilerin MH sonuçlarına dayanarak test maddelerini gözden geçirebileceklerine, kapsam analizi anlamında MH indekslerine güvenebileceklerine ve gerekirse bu analizler sonunda yanlılık gösteren maddeleri testten atabileceklerine işaret eder niteliktedir. Anahtar Kelimeler : Madde yanlılığı (DIF) Başarı testleri, Fen, Urdu, IRT, ICCs alan metodu, Mantel Haenszel (MH) Madde Tepki Kuramı (Item Response Theory) Ill ABSTRACT DIFFERENTIAL ITEM FUNCTIONING ANALYSIS OF 4T-GRADERS' SCIENCE AND URDU (NATIONAL LANGUAGE) ACHIEVEMENT TEST ITEMS IN PAKISTAN Muhammad Bashir Gondal Ph.D., Department of Educational Sciences Supervisor: Prof. Dr. Giray Berberoğlu May 2001, 234 pages Identification of Differential Item functioning (DIF) items is an important area in fair and valid testing. The first purpose of this study is to identify DIF items across gender, location (rural vs. urban), and region groups through Item Characteristic Curves (ICCs) area method and Mantel Haenszel (MH) procedure on 4th -graders' Science and Urdu (National Language) achievement test items administered in Pakistan. The second purpose is to compare the performance of both methods to understand whether they can substitute each other. The respondents of Science scale are 2761 fourth grade students (Female 1359, Male 1402, Rural 1449, Urban 1312, region one 1639, and region two 1122), and of Urdu scale are 2765 fourth grade students (Female 1361, Male 1404, Rural 1437, Urban 1328, Region one 1643, and region two 112). Sample was randomly selected from fourIV provinces and four federally administered areas: Federally Administered Tribal areas, Federally Administered Northern areas, Azad Jammu Kashmir, and Islamabad Capital Territory equally. Science Scale consists of 35-item three-options multiple-choice test items, and Urdu Scale consists of 52 items in restricted and unrestricted format. Both methods identified DIF items across groups for each scale. All the flagged items showed uniform DIF through ICCs area method. The relationship between two methods in identifying DIF items is poor, which is most probably due to poor data fitness for IRT-based ICCs area method. The results may be generalized to the samples, which are similar to the ones used in the present study. Moreover, the format of the scale (such as of alternatives, common alternatives for a group of items measuring cognitive skills etc.) might have affected the magnitude of indices obtained in two methods. The test developers and practitioners are suggested to rely on MH results for screening and content analysis, and delete the commonly identified DIF items after content analysis if necessary. Keywords: Differential Item Functioning (DIF), Achievement tests, Science, Urdu, IRT, ICCs area method, Mantel Haenszel (MH), 234 |