Тестовый контроль в образовании
Шрифт:
В практике массового тестирования в качестве нормативной используется генеральная выборка, включающая всех обучающихся, участвующих в тестировании по данной учебной дисциплине. В сертификатах тестирования помимо тестового балла может быть указан рейтинг учащегося, который определяет место (ранг) тестируемого среди всех участников. Это, например, дает возможность выпускнику оценить свои конкурентные (конкурсные) возможности. При систематическом тестовом контроле появляется возможность по среднему рейтингу обучающихся формировать рейтинг образовательного учреждения, по рейтингу абитуриентов – рейтинг вузов. Все это может обеспечить условия для открытости всей системы образования. При этом пользователями результатов тестирования могут быть не только обучающиеся, но и родители, учителя, руководители общеобразовательных учреждений, органы управления образованием всех уровней и др.
Ежегодный статистический отчет, составляемый по итогам массового тестирования учащихся общеобразовательных учреждений, содержит детальную информацию о всех тестируемых, статистические данные о результатах тестирования по любой выборке учащихся, по каждому образовательному учреждению, району, городу, региону, стране в целом, по всем дисциплинам с указанием среднего тестового балла, средних оценок по пятибалльной шкале, процентов учащихся, правильно выполнивших задания. Материалы статистического отчета по результатам тестирования предоставляют уникальную возможность для анализа учебных достижений при независимом стандартизированном контроле знаний учащихся и являются основой образовательной статистики [129—131, 192]. Само понятие образовательная статистика может быть раскрыто как совокупность статистических показателей подготовленности различных выборок учащихся по результатам массового независимого тестирования.
В статистических отчетах массового тестирования, как правило, приводится несколько показателей, характеризующих интегральную подготовленность учащихся: средний тестовый балл по совокупности всех предметов по России, по отдельным регионам, территориям и общеобразовательным учреждениям, по каждой дисциплине для разных выборок учащихся, по видам тестирования, а также указывается процент правильно выполненных заданий теста, систематизируются другие показатели.
Рассмотренная выше систематизация понятий современного тестирования позволяет перейти к рассмотрению вопросов методологии тестирования, практики конструирования и параметризации контрольно–оценочных материалов, описанию форм, методов и процедур тестового контроля, а также методов анализа результатов, полученных на основе мониторинга учебных достижений школьников. Методологию современного педагогического тестирования можно определить как учение об основных положениях, формах, методах, принципах научного исследования и организации практики педагогического контроля и оценки уровня подготовленности обучающихся. Принципы научной организации тестового контроля, выработанные на основе обобщения зарубежного и отечественного передового опыта, формулируются в виде свода правил, способствующих повышению эффективности тестирования.
3.3. Основы конструирования тестов как контрольных измерительных материалов
Попытки ученых преодолеть многочисленные недостатки классической теории тестов для повышения точности измерений и оптимизации процедур контроля за счет адаптации трудности теста к уровню подготовленности учащегося позволили развить IRT и визуализировать формальные характеристики тестовых заданий, другими словами, позволили увидеть, как работают задания методами графических построений. Благодаря использованию математического аппарата и итерационных процессов (уточнений при последовательных испытаниях) теория IRT позволяет перейти от оценки внешних признаков, выявляемых экзаменаторами (наблюдаемых результатов выполнения задания), к оценкам латентных (скрытых, внутренних) параметров подготовленности испытуемых, обусловливающих некие константы состояния обучаемых (подготовленности) на момент измерения их знаний [238, 242]. Особенностью педагогических измерений по теории IRT является специфическая объективность результатов, связанная с тем, что на оценку испытуемого не влияют оценки других тестируемых данной выборки. Это связано со свойствами инструментария, обусловленными соответствующим подбором тестовых заданий определенного уровня трудности, и использованием специальных процедур шкалирования и оценивания в соответствии с используемыми моделями.
Поисками таких моделей занимались многие зарубежные математики, среди которых особо следует отметить работы Д. Батесона и других (D. Bateson, C. Nikol, T. Achroeder) [228], Р. Берка (R. Berk) [229], А. Бинета и Т. Симона (A. Binet and T. Simon) [230], А. Бирнбаума (A. Birnbaum) [231], Б. Блума (B. Bloom) [232], Я. Кевиса (J. Keeves) [238], К. Лорда (K. Lord) [241 —244], Г. Раша (G. Rasch) [247 —249], Д. Вайса и Г. Кинсбери (D.J. Weiss, G.G. Kingsbury) [252]. Применение этих моделей в отечественной практике тестирования изложено в работах В.С. Аванесова [1], М.Б.Челышковой [195—200], Ю.М.Неймана и В.А.Хлебникова [134], других авторов.
Использование специальных моделей измерения, соединяющих латентные параметры испытуемых с наблюдаемыми результатами выполнения теста, позволяет устранить многие трудности. В рамках IRT оценки качества подготовленности испытуемых можно отождествлять с модифицированными результатами тестовых измерений. При этом, казалось бы, совсем разные понятия «качество» и «количество» не противопоставляются друг другу, а, по определению М.Б. Челышковой и Г.С. Ковалевой, «вкладываются один в другой как показатели интенсивности проявления качества» [199]. Это позволяет представить образовательный процесс в качественных показателях и своевременно корректировать его.
Для решения задач педагогического измерения плодотворным явилось определение знания как объективно и субъективно достаточного признака истинности или проявления логического суждения. При этом латентно–структурный анализ нацелен на выявление внутренних, скрытых качеств и факторов поведения (деятельности) испытуемого посредством математических моделей измерения и статистической обработки полученных результатов. IRT представляет некоторое структурное построение или математическую модель, позволяющую соединить между собой несколько латентных переменных. В соответствии с положениями латентно–структурного анализа оценки испытуемых учитывают уровень трудности используемых при тестировании заданий и выдаются в виде тестовых баллов, рассчитанных с помощью математических моделей. В зависимости от числа оцениваемых параметров тестируемых различают несколько видов математических моделей современных тестов: однопараметрическую, двух–параметрическую, трехпараметрическую и др. Качество тестов, конструируемых на основе этих моделей, значительно улучшается, задания подбираются таким образом, чтобы обеспечить возможность проявления испытуемыми не только знаний, умений и навыков, но и других характеристик, проверка которых может быть заложена в спецификациях тестов.
В IRT вводится представление о существовании взаимосвязи между наблюдаемыми результатами тестирования и латентными качествами испытуемых, такими как уровень учебных достижений по предмету на момент тестирования. В отличие от классической теории тестов, где индивидуальный балл тестируемого рассматривается как постоянное наблюдаемое число Xi, в IRT латентный параметр трактуется как некоторая переменная (латентная переменная), начальное значение которой получается непосредственно из эмпирических данных тестирования (например, первичный балл). При этом латентные параметры (уровень подготовленности испытуемого i и уровень трудности задания j) рассматриваются как результат взаимодействия двух множеств значений, порождающих наблюдаемые итоги выполнения теста. Элементами первого множества являются значения латентного параметра i – уровня знаний N испытуемый: (i = 1, 2, ..., N). Второе множество образуют значения латентного параметра i, соответствующего разной трудности заданий теста (j = 1, 2, ..., n). На практике всегда ставится задача оценить по ответам испытуемых значения параметров и . Для ее решения выбирается вид соотношения между этими параметрами (математическая модель).
Оказалось, что эмпирически наблюдаемые результаты Xi и соответствующие им латентные значения уровня подготовленности испытуемых i связаны нелинейно. Переменный характер измеряемой величины трудности задания j также указывает на возможность последовательного приближения ее к объективным оценкам параметров при помощи итеративных методов в процессе апробации. Выбором математической модели установливается взаимосвязь между эмпирическими результатами тестирования и значениями латентных переменных: – уровень знаний испытуемых и – уровень трудности задания.
Однопараметрическая модель датского математика Г. Раша (G. Rasch) устанавливает зависимость между уровнем подготовленности испытуемого (i) и трудностью заданий (j) [248]. Он предложил ввести это соотношение в виде разности между параметром уровня знаний испытуемых и параметром трудности заданий теста: i– j. При этом предполагается, что оба параметра оцениваются на одной и той же шкале логитов. Функция успеха, или вероятность правильного ответа Рj при тестировании задается простой логистической моделью:
где параметром является разность (-j), абсолютная величина которой представляет в логитах расстояние между уровнем знаний данного испытуемого и уровнем трудности данного задания. Если эта разность велика и отрицательна, то такое трудное задание бесполезно для измерения уровня знаний данного тестируемого, в то же время если эта разность велика и положительна, то задание тоже не представляет интереса, оно неэффективно, так как такой уровень трудности данным тестируемым уже хорошо освоен.