ЖАНРЫ

Контроль качества обучения при аттестации: компетентностный подход

Челышкова Марина Борисовна

Шрифт:

Таким образом, дистракторы, которые выбирают менее 5% неверно ответивших испытуемых, следует удалять из теста. Углубленный вариант дистракторного анализа построен на подсчете значения точечно-бисериального коэффициента корреляции для каждого дистрактора в заданиях теста. Отрицательные значения коэффициента корреляции указывают на ситуацию, когда хорошо выполнившие тест испытуемые не будут выбирать данный дистрактор в качестве правильного ответа.

Значения коэффициента точечно-бисериальной корреляции для примера из табл. 6.6 приводятся в табл. 6.7 (как и ранее, звездочка соответствует правильному ответу).

Таблица 6.7 Значения коэффициента точечно-бисериальной корреляции для дистракторов

Выделенные положительные значения коэффициента точечно-бисериальной корреляции для дистракторов (например 2-й ответ в задании 4, 2-й ответ в задании 8, 4-й в 13 и т. д.) указывают на то, что эти неверные ответы выбирают в качестве правильных сильные студенты, что недопустимо в хороших заданиях теста. При правильном положении вещей значения коэффициента точечно-бисериальной корреляции для дистракторов должны быть отрицательными и превышающими по модулю 0,2. Положительные или близкие к нулю значения коэффициента для дистракторов говорят о необходимости их исключения либо переделки неправильных ответов.

Правильные ответы, наоборот, должны выбирать сильные студенты, поэтому в хороших заданиях значения коэффициента точечно-бисериальной корреляции на месте ответов со звездочкой бывают только положительными и превышающими 0,5. Для случая, когда правильный ответ не выбирают сильные студенты (например, в задании 31 или в заданиях 17, 35 из табл. 6.7), коэффициент корреляции бывает близким к нулю или даже меньше нуля. Отрицательная или нулевая корреляция для верного ответа может отражать случайный характер ответов студентов, наличие систематических проблем в усвоении проверяемого материала, вызванных дефектами преподавания либо некорректной формулировкой задания теста.

Дискриминативностью (discriminatory power) называется способность задания дифференцировать студентов на лучших и худших. Высокая дискриминативность – важная характеристика удачного тестового задания, она определяет меру валидности задания, его адекватность целям создания теста. Поэтому хороший нормативно-ориентированный тест должен быть составлен из заданий с высокой дискриминативной способностью. Для критериально-ориентированных тестов дискриминативность не является решающим фактором при отборе заданий в тест, но в любом случае невалидные задания должны быть удалены из теста.

Для оценки дискриминативности задания применяются различные формулы. Наиболее простым является расчет по формуле rдисj= p1jp0j, где rдисj – индекс дискриминативности для j– го задания теста; p1j – доля студентов, правильно выполнивших jе задание в подгруппе из 27% лучших студентов по результатам выполнения теста; p0j – доля студентов, правильно выполнивших j– е задание в подгруппе из 27% худших студентов по результатам выполнения теста.

Значения индекса rдис для заданий теста обычно представляют собой десятичную дробь, принадлежащую интервалу [–1; 1]. Максимального значения 1,00 rдис достигнет в том случае, когда все студенты из подгруппы лучших верно выполнят j– е задание теста, а из подгруппы худших это задание не выполнит верно ни один студент. Тогда задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения rдис достигнет в том случае, когда в обеих подгруппах будут равны доли студентов, правильно выполнивших j– е задание теста. И наконец, минимальное значение rдис = –1 будет в ситуации, когда данное задание теста все сильные студенты сделали неверно, а все слабые – верно. Естественно, что задания второго и третьего типа с rдис = 0 или rдис < 0 из теста следует удалить.

Более точное представление о дискриминативной способности задания можно составить, подсчитав точечный бисериальный коэффициент (rpbis) корреляции, процесс вычисления значений которого подробно рассмотрен выше в этом же разделе. Помимо приведенной формулы для rpbis, можно использовать другие, дающие близкие значения:

где (rpbis)jточечно-бисериальный коэффициент корреляции для j– го задания; (X1)j среднее значение индивидуальных баллов студентов, выполнивших верно j– е задание; (X0)j — среднее значение индивидуальных баллов учеников, выполнивших j– е задание неверно; X — среднее значение баллов по всей выборке студентов; Sx стандартное отклонение по множеству индивидуальных баллов.

По мнению многих специалистов (Крокер, Алгина, Клайна и др. ), в качестве критического числа следует выбрать значение 0,2, потому все задания со значением rpbis < 0,2 необходимо удалить из теста.

Интересна взаимосвязь показателей трудности и дискриминативности заданий теста. Задания с высокой дискриминативностью обычно имеют среднюю трудность, поскольку именно для них характерен высокий дифференцирующий эффект. Однако обратное заключение, вообще говоря, неверно. Задания с p = 0,5 могут иметь как высокий, так и низкий дифференцирующий эффект.

При подсчете статистик по тесту всегда проводится проверка значимости значений дисперсии, асимметрии, эксцесса и т.д. Для этого к данным, собранным по тесту, необходимо добавить информацию о принимаемом уровне риска допустить ошибку в статистическом выводе. Наиболее приемлемым для педагогических измерений является уровень в 5%, который допускает ошибку в пяти случаях из ста. После выбора степени риска проверка значимости проводится одним из описанных в литературе методов.

При конструировании теста необходимо иметь четкое представление о содержании заданий, которые предполагается включить в окончательную версию теста. При одномерных измерениях содержание заданий должно отвечать свойству гомогенности, указывающему на степень его однородности с точки зрения оцениваемого параметра подготовленности ученика. Таким образом, гомогенность (однородность) – это характеристика задания, отражающая степень соответствия его содержания измеряемому свойству ученика.

Степень гомогенности содержания обычно оценивают с помощью факторного анализа. Для вывода о приемлемой степени гомогенности достаточно лишь того, чтобы доминирующий фактор, в основном определяющий результаты выполнения задания, был ориентирован на измеряемую переменную. Представление о степени гомогенности задания как составляющей системы заданий в тесте можно получить с помощью анализа парных корреляций (см. выше в данном разделе). Если какое-либо задание отрицательно коррелирует с остальными, то есть веские основания для сомнений в его гомогенности. Наоборот, значимые, высокие оценки корреляции указывают на высокую степень однородности содержания заданий теста. При увеличении интеркорреляции заданий сужается содержательная область, отраженная в тесте, что желательно в тематических, но недопустимо в итоговых тестах для оценки уровня подготовки по предмету. Поэтому при создании итоговых нормативно-ориентированных тестов стараются отобрать задания с положительными, но невысокими значениями коэффициентов парной корреляции в пределах интервала (0; 0,3).

Показанные в разделе простейшие случаи подсчета статистических характеристик теста входят в состав так называемой дескриптивной статистики по тесту. В общем случае статистика включает также факторный анализ для оценки полученных результатов тестирования соответствия измеряемой переменной.

6.3. Оценивание надежности и валидности педагогических тестов

Общие представления о надежности и валидности были введены ранее. Оценка надежности нормативно-ориентированных тестов проводится различными методами, которые по способу осуществления можно условно разделить на две группы [28, 36]. Первая группа методов базируется на двукратном тестировании, проводимом с помощью одного и того же теста либо с помощью двух параллельных форм теста. Вторая группа предполагает однократное тестирование при оценке надежности теста. На практике стараются использовать вторую группу методов, поскольку организация повторного тестирования, как и разработка параллельных форм, всегда сопряжена с определенными трудностями и дополнительными затратами со стороны создателей тестов. Обычно вне зависимости от метода оценка надежности строится на подсчете корреляции между двумя наборами данных. Логика рассуждений при этом довольно проста: чем выше корреляция, тем надежнее тест.

Поделиться с друзьями: