ЖАНРЫ

Контроль качества обучения при аттестации: компетентностный подход

Челышкова Марина Борисовна

Шрифт:

Для какого класса животных характерны признаки: хладнокровные, обитающие в воде и на суше, размножаются в воде?

1. Класс рыб

2. Класс пресмыкающихся

3. Класс земноводных

4. Класс млекопитающих

5. Предложите метод улучшения формулировки заданий.

Что из нижеперечисленного было ликвидировано реформами 60-х годов XIX века в России?

1. Самодержавие

2. Крепостничество

3. Сословность

4. Помещичья собственность на землю

5. Национальный гнет

6. Статистический анализ качества тестовых заданий и тестов

6.1. Классическая теория и методики конструирования тестов

Понятие истинного балла (true score) – параметра испытуемого – является основополагающим в педагогических измерениях наряду с терминами «сырой балл»и «наблюдаемый балл», которые получаются простым суммированием оценок по отдельным заданиям теста. Нередко истинный балл называют константой испытуемого в момент измерения, не зависящей от средства измерения. Поэтому при одномерных измерениях каждому испытуемому можно поставить в соответствие только один истинный балл в отличие от наблюдаемых баллов, которых может быть столько, сколько используемых для измерения этой переменной тестов.

Получение наиболее точной оценки параметра подготовленности испытуемых – главная цель каждого, кто создает или применяет педагогический тест, поскольку любые результаты тестирования всегда содержат в себе ошибочные компоненты измерения. По этой причине при создании тесты проходят процесс научного обоснования качества, который нацелен на улучшение характеристик заданий для повышения точности тестовых баллов. Этот процесс основывается на математико-статистическом аппарате классической или современной теории тестов (Item Response Theory) [1, 28, 35, 37]. Современная теория достаточно сложна, обычно она применяется профессиональными тестовыми службами для больших выборок испытуемых (более 1000 человек на вариант) и требует значительных трудозатрат при обработке и интерпретации данных для коррекции тестов. Классическую теорию используют значительно чаще, особенно при небольших выборках в 50–100 человек на каждый вариант теста. Если сразу затруднительно собрать даже столько данных, то их нужно накапливать на протяжении нескольких лет, поскольку меньшие выборки при разработке итогового теста нежелательны.

Математико-статистическая обработка обычно проводится с помощью специального программного обеспечения, но хотя бы один раз ее стоит проделать вручную, чтобы понять смысл некоторых показателей качества теста.

6.2. Математико-статистический анализ качества тестов и тестовых заданий на основе классической теории тестов

Если за каждый правильный ответ на задание испытуемому давать 1 балл, а за неправильный ответ или пропуск задания – 0 баллов, то профиль ответов студента будет иметь вид последовательности из единиц и нулей. Поскольку каждая единица или нуль появляются в результате взаимодействия испытуемого с заданием, то наиболее адекватной формой представления наблюдаемых результатов выполнения теста служит матрица, т.е. прямоугольная таблица, сводящая воедино профили ответов студентов и профили заданий теста (столбцы из оценок всех студентов по каждому заданию теста).

Пример матрицы наблюдаемых результатов, полученной при выполнения N (N = 10) студентами n (n = 10) заданий теста при дихотомических оценках (1 или 0) по заданиям приведен в табл. 6. 1.

Справа в вертикальном столбце содержатся индивидуальные баллы студентов Xi (i = 1, 2, …, N), которые получаются суммированием единиц по горизонтали в каждом профиле ответов. Сложение единиц в столбцах по профилям ответов на n заданий теста позволяет получить числа Yj (j = 1, 2, …, i), соответствующие количеству правильных ответов на каждое задание. С помощью матрицы можно выполнить ряд расчетов, интерпретация результатов которых позволяет сделать важные выводы относительно качества заданий теста и получить достаточно точные оценки параметра испытуемых в том случае, если тест соответствует определенным критериям качества.

Таблица 6.1 Пример матрицы наблюдаемых результатов выполнения теста

Для анализа обычно используется упорядоченная матрица, в которой не только задания ранжированы по нарастанию трудности (см. табл. 6.1), но и баллы испытуемых расположены по убыванию или нарастанию сверху вниз (табл. 6.2).

По данным матрицы обычно проводят графическую интерпретацию распределений для трудности заданий и индивидуальных баллов испытуемых, которые представляют в виде полигона, гистограммы или сглаженной кривой (процентилей, огивы). Для больших выборок испытуемых (50 студентов и более) графическую интерпретацию предваряет формирование частотного распределения (табл. 6.3).

Таблица 6.2 Упорядоченная матрица данных тестирования

Таблица 6.3 Частотное распределение баллов

В табл. 6.3 содержатся только различные индивидуальные баллы испытуемых, взятые из последнего столбца матрицы эмпирических результатов выполнения теста и расположенные в порядке возрастания слева вместе с числом их повторений (f). Сумма всех частот для данного примера N = 1 + 1 + 3 + 1 + 2 + 2 =10, т.е. числу студентов в группе. Для очень большой группы в 100 или более студентов строят сгруппированное частотное распределение, в котором оценки объединяют в группы. Каждая группа называется разрядом оценок. В случае полного размещения оценок по разрядам говорят о распределении сгруппированных частот баллов студентов. Хотя четкого правила выбора количества разрядов нет, но обычно их число стараются варьировать в пределах от 12 до 15.

По ряду частотного распределения можно получить графическое представление результатов тестирования в виде гистограммы – последовательности столбцов, каждый из которых опирается на единичный (разрядный) интервал, а высота его пропорциональна частоте наблюдаемых баллов. Например, для рассматриваемого примера (см. табл. 6.3) гистограмма приведена на рис. 6.1. Середина столбца совмещается с серединой интервала разряда, который выбран длиной в 1 балл.

Рис. 6.1. Столбчатая гистограмма для распределения баллов в табл. 6.3

Для дальнейшего анализа данных оцениваются меры центральной тенденции в распределении результатов тестирования, которые предназначены для выявления той точки, вокруг которой в основном группируются все результаты выполнения теста. При анализе результатов тестирования можно использовать разные подходы к определению такой центральной точки. Наиболее простой способ основан на выявлении моды распределения и среднего арифметического баллов.

Мода – это такое значение, которое встречается наиболее часто среди результатов выполнения теста. Например, для данных табл. 6.3 модой является балл 4, потому что он встречается чаще (3 раза) любого другого балла. Конечно, не всякое распределение имеет единственную моду, их может быть две или больше. В случае существования двух мод распределение называется бимодальным. Если все значения баллов студентов встречаются одинаково часто, принято считать, что моды у распределения нет.

Среднее выборочное (среднее арифметическое) определяется суммированием всех значений совокупности и последующим делением на их число. Для индивидуальных баллов 1, 2,, ХN группы N испытуемых среднее значение X будет:

(6.1)

Среднее арифметическое индивидуальных баллов испытуемых для рассматриваемого выше примера матрицы (см. табл. 6.2) равно

В отличие от моды, фиксирующей одно или несколько значений, на величину среднего влияют значения всех результатов распределения. Таким образом, среднее арифметическое характеризует все распределение в целом. Оно обобщает индивидуальные особенности составляющих распределения на основе уравнивания отдельных значений рассматриваемой величины.

Меры центральной тенденции полезны при оценке качества теста, если есть результаты апробации теста на репрезентативной выборке студентов. Обычно считают, что хороший нормативно-ориентированный тест обеспечивает нормальное распределение индивидуальных баллов репрезентативной выборки испытуемых, если среднее значение баллов находится в центре распределения, а остальные значения концентрируются вокруг среднего по нормальному закону, т.е. примерно 70% значений находятся в центре, а остальные сходят на нет к краям распределения, как на рис. 6.2.

Поделиться с друзьями: