Контроль качества обучения при аттестации: компетентностный подход - Виктор Звонников

Читать онлайн Контроль качества обучения при аттестации: компетентностный подход - Виктор Звонников

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 40 41 42 43 44 45 46 47 48 ... 52

Перейти на страницу:

При подсчете статистик по тесту всегда проводится проверка значимости значений дисперсии, асимметрии, эксцесса и т.д. Для этого к данным, собранным по тесту, необходимо добавить информацию о принимаемом уровне риска допустить ошибку в статистическом выводе. Наиболее приемлемым для педагогических измерений является уровень в 5%, который допускает ошибку в пяти случаях из ста. После выбора степени риска проверка значимости проводится одним из описанных в литературе методов.

При конструировании теста необходимо иметь четкое представление о содержании заданий, которые предполагается включить в окончательную версию теста. При одномерных измерениях содержание заданий должно отвечать свойству гомогенности, указывающему на степень его однородности с точки зрения оцениваемого параметра подготовленности ученика. Таким образом, гомогенность (однородность) – это характеристика задания, отражающая степень соответствия его содержания измеряемому свойству ученика.

Степень гомогенности содержания обычно оценивают с помощью факторного анализа. Для вывода о приемлемой степени гомогенности достаточно лишь того, чтобы доминирующий фактор, в основном определяющий результаты выполнения задания, был ориентирован на измеряемую переменную. Представление о степени гомогенности задания как составляющей системы заданий в тесте можно получить с помощью анализа парных корреляций (см. выше в данном разделе). Если какое-либо задание отрицательно коррелирует с остальными, то есть веские основания для сомнений в его гомогенности. Наоборот, значимые, высокие оценки корреляции указывают на высокую степень однородности содержания заданий теста. При увеличении интеркорреляции заданий сужается содержательная область, отраженная в тесте, что желательно в тематических, но недопустимо в итоговых тестах для оценки уровня подготовки по предмету. Поэтому при создании итоговых нормативно-ориентированных тестов стараются отобрать задания с положительными, но невысокими значениями коэффициентов парной корреляции в пределах интервала (0; 0,3).

Показанные в разделе простейшие случаи подсчета статистических характеристик теста входят в состав так называемой дескриптивной статистики по тесту. В общем случае статистика включает также факторный анализ для оценки полученных результатов тестирования соответствия измеряемой переменной.

6.3. Оценивание надежности и валидности педагогических тестов

Общие представления о надежности и валидности были введены ранее. Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы [28, 36]. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста. На практике стараются использовать вторую группу методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов. Обычно вне зависимости от метода оценка надежности строится на подсчете корреляции между двумя наборами данных. Логика рассуждений при этом довольно проста: чем выше корреляция, тем надежнее тест.

Для маленькой выборки корреляцию можно оценить визуально, как в приведенном далее примере (табл. 6.8). В рассматриваемом гипотетическом примере три теста А, В и С из 10 заданий дважды выполняла одна и та же выборка из 10 студентов.

Тест А обладает оптимальной надежностью, так как результаты 10 студентов остались прежними: баллы и места учеников не изменились после повторного выполнения теста. Подсчет корреляции результатов первого и второго тестирования даст коэффициент корреляции, равный единице. Тест В абсолютно ненадежен: те, кто имел самые высокие баллы в первом тестировании, получают самые низкие во втором после повторного применения этого же теста. Полное отсутствие воспроизводимости баллов испытуемых указывает на минимальную надежность теста, поэтому (rн)в = –1. Тест С обеспечивает хаотичное изменение результатов, хотя баллы отдельных студентов (3-го и 9-го) будут воспроизведены при повторном выполнении теста. Скорее всего, надежность 3-го теста близка к нулю. Естественно, что рассмотренные гипотетические ситуации не встречаются на практике. Обычно коэффициент надежности принимает положительные значения, но никогда не бывает равен единице даже для существующих десятилетиями, получивших всеобщее признание очень хороших тестов.

Таблица 6.8 Результаты двукратного выполнения трех тестов

Ретестовый метод оценки надежности (test-retest reliability) основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Обычно повторное тестирование проводится через 1–2 недели, когда испытуемые еще не успели забыть учебный материал и незначительно продвинулись в усвоении новых знаний. При таких условиях повторного предъявления теста низкая корреляция между результатами тестирования будет следствием не изменения состояния испытуемых, а применения ненадежного теста.

Для подсчета коэффициента надежности по методу повторного тестирования используется формула

(6.9)

где (rн)рет — коэффициент надежности теста по ретестовому методу, Xi — индивидуальный балл i-го испытуемого в первом тестировании, Yi — индивидуальный балл i-го испытуемого во втором тестировании (i = . 1, 2, …, N).

Для удобства вычисления коэффициента надежности по ретестовому методу данные можно заносить в табл. 6.9.

Пример подсчета по табл. 6.9 можно привести для исходной матрицы. Выбирая ее данные в качестве результатов первого тестирования и добавляя результаты произвольные второго тестирования можно подсчитать коэффициент надежности ретестовым методом (табл. 6.10).

После подстановки чисел из нижней строчки таблицы в формулу (6.9) коэффициент надежности будет

Значение rн =̣ 0,78 указывает на невысокую надежность теста.

Применение ретестового метода может привести к ошибочным оценкам надежности в тех случаях, когда проводится слишком близкое по времени повторное применение теста. Студенты запоминают ответы к заданиям и при повторном тестировании значительно повышают свои результаты, что искажает оценку надежности теста.

Таблица 6.9 Сводная таблица для оценки надежности (ретестовый метод)

Таблица 6.10 Пример подсчета надежности ретестовым методом

Другой метод параллельных форм (parallel-form reliability) основан на однократном применении двух параллельных вариантов теста. Он непригоден в тех случаях, когда при тестировании используется один вариант теста.

В некоторых странах, например в США, благодаря соблюдению всех требований к проведению тестирования, применение единственного варианта не снижает необходимый уровень информационной безопасности, зато обеспечивает высокую сопоставимость результатов выполнения теста. Таким образом, если тест только один, то для оценки надежности методом параллельных форм приходится создавать параллельный вариант теста, затем с затратами сил, средств и времени на апробацию доказывать правомерность гипотезы о параллельности и только потом оценивать надежность исходного теста.

В другой ситуации, когда изначально разрабатываются параллельные варианты теста, как в ЕГЭ, оценка надежности методом параллельных форм также требует значительных трудозатрат. Необходима тщательная ротация вариантов в группе испытуемых для обеспечения сходных выборок учащихся на параллельных вариантах теста. Даже при стратификации выборки испытуемых и ротации вариантов достоверность оценок надежности снижается из-за того, что параллельные формы – это, скорее, теория, чем реальность, поскольку на практике, несмотря на все усилия авторов, как правило, обнаруживаются статистически значимые отличия в характеристиках параллельных вариантов.

Для оценки надежности методом параллельных форм используется формула (6.9). В ней Xi (i = 1, 2, …, N) – индивидуальные баллы испытуемых в первой форме, а Yi (i = 1, 2,…, N) – во второй. А далее все вычисления с точностью повторяют подробно рассмотренный пример.

Метод оценивания надежности, основанный на расщеплении результатов по тесту на две части (split-half method), наиболее распространен из-за своего удобства. Он позволяет вычислить коэффициент надежности при однократном выполнении испытуемыми теста. Для оценки надежности результаты тестирования делят на две части: в одну включают данные студентов по четным, а в другую – по нечетным заданиям, считая при этом, что получены сходные по содержанию части теста. Правда, деление на две части не единственный способ, возможны и другие варианты, когда выделяют большее число частей при оценке надежности теста.

1 ... 40 41 42 43 44 45 46 47 48 ... 52

Перейти на страницу:

Пожаловаться на ошибку