Popis: |
Bu araştırmada Angoff, Yes/No ve Ebel standart belirleme yöntemleri ile elde edilen kararlar ve kesme puanları karşılaştırılmıştır.Araştırmanın öğrenci verilerini, ilköğretim 4. sınıf matematik dersi ?Bölme ve Kesirler? alt öğrenme alanlarına yönelik araştırmacı tarafından hazırlanmış 20 soruluk bir başarı testinden alınan 489 öğrenci puanı oluşturmuştur. Araştırmada kullanılan diğer veriler ise 17 uzmanın hazırlanan bu başarı testindeki maddeler için üç farklı standart belirleme yöntemine göre vermiş oldukları kararlardır.Verilerin analizinde üç farklı standart belirleme yöntemine göre başarılı sayılan öğrenci yüzdeleri arasındaki farklılıklar bağımlı iki oran arasındaki farkın testi ile sınanmıştır. Bu üç yöntemden elde edilen kesme puanlarına göre öğrenci puanları başarılı-başarısız olmak üzere yapay ikili hâle getirilip aralarındaki uyuma Cohen'in Kappa istatistiği ile bakılmıştır. Üç yönteme ait kesme puanları arasındaki uyuma Pearson Momentler Çarpımı Korelasyon Katsayısı ile ve kesme puanlarının ortalamaları arasındaki farka da bağımlı gruplar t testi ile bakılmıştır. Yöntemlerdeki uzmanlar arası uyumun belirlenmesi amacıyla Angoff ve Ebel yöntemleri için Kendall'ın uyuşum katsayısı (W); Yes/No yöntemi için ise Cohen'in Kappa istatistiği hesaplanmıştır. Ayrıca yöntemlere ait kararların varyans bileşenleri ve varyans yüzdeleri genellenebilirlik kuramı ile incelenmiş; her bir yöntem için en uygun puanlayıcı sayısı da D çalışması ile belirlenmiştir.Bu araştırma sonunda bu üç farklı standart belirleme yöntemine göre başarılı sayılan öğrenci yüzdeleri arasında 0,01 hata düzeyinde manidar farklılık olduğu görülmüştür. Bu üç yöntemden elde edilen kesme puanlarına göre öğrenci puanları başarılı-başarısız olmak üzere yapay ikili hâle getirildiğinde Angoff ve Yes/No yöntemleri ile Angoff ve Ebel yöntemleri arasında 0,01 hata düzeyinde yüksek bir uyum; Yes/No ve Ebel yöntemleri arasında ise 0,01 hata düzeyinde makul bir uyum olduğu sonucuna ulaşılmıştır. Üç yönteme ait kesme puanları bakımından Angoff ve Yes/No yöntemleri ile belirlenen minimum geçme puanları (MGP) arasında pozitif ve orta düzeyde bir ilişki olduğunu ve iki yönteme ait MGP'lerin ortalamaları arasında da manidar bir farklılığın olmadığını; Angoff ve Ebel yöntemleri ile belirlenen MGP'ler arasında pozitif ve yüksek düzeyde bir ilişki olduğu ve iki yönteme ait MGP'lerin ortalamaları arasında ise manidar bir farklılığın olduğunu; Yes/No ve Ebel yöntemleri ile belirlenen MGP'ler arasında ise anlamlı bir ilişkinin olmadığı ve iki yönteme ait MGP'lerin ortalamaları arasında ise manidar bir farklılığın olduğunu söyleyebiliriz. Yöntemlerdeki uzmanlar arası uyumun ise makul düzeyde olduğu görülmüştür.Yöntemlere ait uzman kararlarının G kuramı ile incelenmesi sonucunda, üç yöntemin maddelere ait farklılıkları fazla ortaya çıkaramadığı; Ebel yönteminin uzmanlar arası tutarlılık bakımından en düşük sonucu verdiği, onu takiben Angoff yönteminin geldiği ve en yüksek uzman tutarlılığını Yes/No yönteminin verdiği sonucuna ulaşılmıştır. Ayrıca üç yöntemde de hem uzmanlar tarafından maddelere ait güçlük düzeylerinin farklı algılandığı hem de hata varyansının büyük olduğu görülmüştür. Üç yöntemin birlikte ele alındığı G çalışması sonucunda maddeler arası farklılığın ortaya çıkarılamadığı; uzmanlar arasında bir uyumun olduğu ve yöntemler arasında da büyük bir farklılığın olduğu sonucuna ulaşılmıştır. Ayrıca maddelerin bir yöntemden diğer yönteme çok farklı puanlanmadığı; belirli bir uzmanın tüm maddeler için aynı puanlamayı yapmadığı ya da belirli bir maddenin puanlanmasıyla diğer maddelerin puanlaması bakımından bağımlılık olduğu; uzmanların bir yöntemden diğer yönteme kararlı puanlama yapmadıkları, bir başka deyişle uzmanların yöntemlere göre farklı puanlama yaptıkları ve ölçülemeyen hata kaynaklarının büyük olduğu sonucuna ulaşılmıştır.D çalışması sonuçlarına göre Angoff ve Yes/No yöntemleri ile kesme puanı belirlenirken 17 civarında uzmandan; Ebel yönteminde ise 22 civarında uzmandan karar almanın güvenirlik için yeterli olacağı; daha fazla sayıda uzmandan karar alındığında yöntemlere ait G ve Phi katsayılarının arttığı, ancak bu katsayılarda yine de büyük bir değişme olmadığı görülmüştür. In this study, decisions and cut-off scores obtained from Angoff, Yes/No and Ebel standard setting methods have been compared.The student data of the research consist of 489 student scores obtained from a achievement test of 20 questions, in the `Division and Fractions` sub-area of 4th grade Mathematics subject, prepared by the researcher. Other data used in the study are 17 experts? decisions, made according to three different standard setting methods for this achievement test.In the analysis of the data, differences between the percentages of students, considered as successful according to three different standard setting methods, have been tested with the test of the difference between two correlated proportions. The scores of the students have been tailored to binary as successful-unsuccessful according to the cut-off scores obtained from the three methods; and the compliance between them has been examined with Cohen?s Kappa statistics. The compliance between the cut-off scores of three methods has been evaluated with Pearson Product-Moment Correlation Coefficient; and the difference between the averages of the cut-off scores has been evaluated with paired samples t test. In order to set the compliance between experts in the methods, Kendall?s coefficient of concordance (W) for Angoff and Ebel methods, and Cohen?s Kappa statistics for Yes/No method have been calculated. Additionally, variance components and variance percentages of the decisions of methods have been examined with generalizability theory; and the most appropriate number of raters for each method has been set with D study.At the end of this research, it is seen that there is significant difference on 0,01 error level among percentages of students considered as successful according to these three different standard setting methods. According to the cut-off scores obtained from these three methods, when the scores of the students are tailored to the artifical binary as successful-unsuccessful, it is concluded that there is a high compliance on 0.01 error level between Angoff and Yes/No methods, and Angoff and Ebel methods; and that there is a reasonable compliance on 0.01 error level between Yes/No and Ebel methods. In terms of the cut-off scores of the three methods, it can be said that there is a positive and moderate relationship between minimum passing scores (MPS) determined Angoff and Yes/No methods; that there is no significant difference between the averages of MPSs of two methods; that there is a positive and high level of relationship between MPSs determined with Angoff and Ebel methods; and that there is significant difference between MPSs of two methods; that there is no significant relationship between MPSs determined with Yes/No and Ebel methods; and that there is significant difference between MPSs of two methods. The compliance of experts in the methods is seen to be at a reasonable level.As a result of the examination of experts? decisions of the methods with G theory, it is concluded that the three methods could not have demonstrated the differences of the items; that Ebel method gives the lowest result in terms of consistency among experts; that Angoff method comes after; and that Yes/No method gives the highest level of consistency. Additionally, in all of the three methods, it is seen that both the levels of difficulty are differently perceived by experts and the variance of error is great. As a result of G theory, in which three methods are discussed, it is concluded that differences between items could not have been demonstrated; that there is compliance among the experts; and that there is significant difference between the methods. Additionally, it is concluded that the items are not rated differently in a method regarding the other; that a specific expert does not score all of the items in the same way or that there is dependence between scoring of an item and that of other items; that experts do not perform stable scoring from a method to another; in other words, they score differently regarding the methods; and that error sources which cannot be measured are large.According to D study results, while cut-off score is determined with Angoff and Yes/No methods, it is seen that considering decisions of approximately 17 experts is sufficient for reliability in Angoff and Yes/No methods and 22 experts is sufficient for reliability in Ebel method; and when the decisions are obtained from more experts, methods? G and Phi coefficient increase; but no significant change has been observed in these coefficients. 109 |