Материал из книги В.С. Аванесова "Композиция тестовых заданий". М., 1998, с. 156-207. Ранее был представлен на сайте http://www.usatic.narod.ru

Оценка качества тестовых результатов

Часть 1. Проверка качества тестовых заданий

Работа по превращению заданий в тестовой форме в тестовые задания требует опоры на теорию тестов.

Во всех известных теориях тестирование рассматривается как процесс противоборства испытуемого с предлагаемым ему заданием. Наиболее чётко эту метафору использовал Г.Раш. Если номер испытуемого обозначить символом i, а номер задания - символом j, то исход противоборства оценивается баллом Хij. Значение этого балла зависит от соотношения уровня знания тестируемого с уровнем трудности задания, от избранной единицы измерения и от заранее принятого соглашения (конвенции)- что считать "победой" испытуемого или задания, и допустима ли "ничья".

При упрощенном подходе, обычно рассматриваются два исхода: победа или поражение. Если испытуемый справляется с заданием, ему за победу дается один балл. В таких случаях пишут Хij.= 1. Если не справляется, то дается ноль баллов.

В отличие от других т.н. педагогических "контрольных материалов", тестовые задания проходят процесс специальной апробации. Хотя разработка заданий начинается, как обычно, с общего педагогического замысла, она на этом не заканчивается. Далее начинаются попытки превращения заданий в тестовой форме в тестовые задания. Ключевым здесь является момент эмпирической проверки тестовых свойств и применения статистических методов обработки данных.

Определение статистических характеристик является главным (после экспертной проверки содержания) средством диагностики тестовых свойств заданий, причем по любой учебной дисциплине.

Матрица результатов.

Для проверки тестовых свойств заданий используется матрица результатов тестирования.

Матрицей называется компактная форма записи элементов, связанных некоторой общностью содержания. Матрица тестовых результатов представляет результаты испытуемых по всем проверяемым заданиям. Если представить, для примера, что четверо испытуемых отвечают на три задания, и что за каждый правильный ответ даётся один балл, а за неправильный- ноль, то результат тестирования можно представить в матрице Х4х3.

В этой матрице имеется четыре строки, что равняется числу испытуемых, и три столбца, что равно числу заданий. В ней использованы только две оценки, 1 и 0. В матрице любого размера эти оценки отражают результаты взаимодействия множества испытуемых со множеством заданий.

Тестовый балл первого испытуемого (первая строка) по третьему заданию (третий столбец, Х13) равен единице; тестовый балл третьего испытуемого по второму заданию (Х12) равен нулю и т. д.

Рассмотрим пример матрицы (табл. 2.1), в которой приведены результаты проверки знаний 13-ти испытуемых по 10-ти заданиям(Х13х10). Впервые эта матрица и последующий текст были приведены в моей книге Основы научной организации педагогического исследования" М.: МИСиС, 1989, с. 93.

Табл. 2.1. Матрица тестовых результатов.

Испытуемые

Задания

1

2

3

4

5

6

7

8

9

10

1.

1

1

1

0

1

1

1

1

1

1

2.

1

1

0

1

1

1

1

1

1

0

3.

1

1

1

1

0

1

1

0

1

0

4.

1

1

1

1

0

1

0

1

0

0

5.

1

1

1

1

1

1

0

0

0

0

6.

1

1

1

1

0

0

1

0

0

0

7.

1

1

0

1

1

0

1

0

0

0

8.

1

1

1

1

1

0

0

0

0

0

9.

1

0

1

0

1

1

0

0

0

0

10.

0

1

1

0

0

0

0

1

0

1

11.

1

1

1

0

0

0

0

0

0

0

12.

1

1

0

0

0

0

0

0

0

0

13.

1

0

0

0

0

0

0

0

0

0

Для проверки тестовых свойств заданий тестовой формы и превращения части из них в тестовые задания, с данными табл. 2.1 делается ряд расчетов. Результаты представлены в табл. 2.2.

Табл. 2.2. Таблица тестовых результатов.

Испытуемые

Задания

1

2

3

4

5

6

7

8

9

10

1.

1

1

1

0

1

1

1

1

1

1

2.

1

1

0

1

1

1

1

1

1

0

3.

1

1

1

1

0

1

1

0

1

0

4.

1

1

1

1

0

1

0

1

0

0

5.

1

1

1

1

1

1

0

0

0

0

6.

1

1

1

1

0

0

1

0

0

0

7.

1

1

0

1

1

0

1

0

0

0

8.

1

1

1

1

1

0

0

0

0

0

9.

1

0

1

0

1

1

0

0

0

0

10.

0

1

1

0

0

0

0

1

0

1

11.

1

1

1

0

0

0

0

0

0

0

12.

1

1

0

0

0

0

0

0

0

0

13.

1

0

0

0

0

0

0

0

0

0

В этой матрице проведено два упорядочения.

Одно касается испытуемых. В первой строке представлены баллы самого успешного испытуемого, во второй менее, и т.д., по нисходящей сумме баллов, если ее посчитать для каждого испытуемого.

Другое упорядочение проведено для заданий. На первом месте стоит самое легкое задание, по которому имеется наибольшее число правильных ответов, на втором - меньшее, и т. д., до последнего, у которого имеется всего один правильный ответ.

В табл. 2.2 приводятся и основные статистические данные, принимаемые во внимание на первом этапе эмпирической проверки качества заданий.

Вначале определяется мера трудности заданий. Известную трудность заданий, как первое требование к тестовым заданиям, можно образно сравнить с разновысокими барьерами на беговой дорожке стадиона, где каждый последующий барьер чуть выше предыдущего. Успешно преодолеть все барьеры сможет только тот, кто лучше подготовлен.

Трудность задания может определяться двояко:

Эмпирически трудность заданий определяется сложением элементов матрицы по столбцам, что указывает на число правильных ответов, полученных по каждому заданию (Rj). Чем больше правильных ответов на задание, тем оно легче для данной группы испытуемых.

Больше правильных ответов оказалось в первом задании (R1 = 12), что означает, что оно самое легкое в матрице.

В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться также и характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм.

В силу простоты показатель R, удобен, но до тех пор, пока не появляются другие группы испытуемых, с разным числом испытуемых (N). Поэтому для получения сопоставительных характеристик R, делят на число испытуемых в каждой группе.

pj= Rj / N     (2.1)

В результате получается статистический показатель - доля правильных ответов, pj. Значения pj приводятся в третьей строке нижней части таблицы 2.2. Статистика pj долго использовалась в качестве показателя трудности в так называемой классической теории тестов. Позже была осознана содержащаяся в ней смысловая неточность: ведь увеличение значения pj указывает не на возрастание трудности, а наоборот, на возрастание легкости, если можно применить такое слово.

Поэтому в последние годы с показателем трудности заданий стали ассоциировать противоположную статистику - долю неправильных ответов (qj). Эта доля вычисляется из отношения числa неправильных ответов (Wj - вторая строка нижней части таблицы) к числу испытуемых (N):

qj = Wj / N     (2.2)

Значения qj представлены в четвертой строке нижней части таблицы 2.2. Естественным образом принимается, что

pj + qj = l     (2.3)

Результаты сложения по строкам представлены в последнем столбце таблицы. Из последнего, одиннадцатого столбца таблицы видно, что больше правильных ответов у первого испытуемого, а меньше - у последнего. Это столбец представляет собой числовой вектор тестовых баллов испытуемых. Суммирование баллов всех испытуемых, представленных в таблице, дает число 65. Полезно посчитать средний арифметический тестовый балл в данной группе испытуемых

М = 65 / 13 = 5.0

Это равенство отражает сумму всех элементов матрицы тестовых заданий, но только для случаев, когда для получения Yi используются одинаковые весовые коэффициенты (Cj) значимости заданий в тесте, все равные, например, единице.

Определение понятия трудности

В технологиях адаптивного обучения и контроля используется другая мера трудности задания, равная ln qj / pj. Эту меру трудности, получаемую в шкале натуральных логарифмов, называют логит трудности задания. Симметрично введится и логарифмическая оценка уровня знаний, так называемый логит уровня знаний, равный ln pi / qi, где рi- доля правильных ответов испытуемого, рассчитываемая по формуле pi= Yi / k, в которой Yi означает число правильных ответов испытуемого i, а символ k означает общее число заданий.

Логарифмические оценки таких, казалось бы, реально несопоставимых феноменов как уровень знаний каждого испытуемого, с уровнем трудности каждого задания, привели к незамысловатой, внешне, попытке сравнить их посредством вычитания. Однако эффективность такого сравнения оказала огромное влияние на развитие зарубежной педагогической теории и практики.

Впервые появилась возможность непосредственного сопоставления любого множества заданий с любым числом испытуемых. ЭВМ сопоставляет логит задания и логит знаний и на этой основе подбирает очередное задание в системах адаптивного обучения и контроля знаний.

Требование известной трудности оказывается важнейшим системообразующим признаком тестового задания. Если тест- это система заданий возрастающей трудности, то в нем нет места заданиям без известной меры трудности.

Вариация, дисперсия баллов и дифференцирующая способнось.

Вариация баллов является третьим требованием к тестовым заданиям.

Если на какое-то задание правильно отвечают все тестируемые, то такое задание становится не тестовым. Испытуемые отвечали на него одинаково; между ними нет вариации. Соответственно, по данному заданию в матрице будут стоять одни единички.

Не тестовым надо считать и то задание, на которое нет ни одного правильного ответа; в матрице по нему ставят, соответственно, одни нули. Вариация по нему также равна нулю. Нулевая вариация означает практическую необходимость удаления задания из проектируемого теста. Оно, для данной группы, не тестовое. Возможно, в другой группе это задание заработает, но это будет задание уже другого, а не данного теста, если под тестом понимать метод и результат измерения знаний.

Удобной мерой вариации является значение дисперсии баллов, обозначаемой символом sj2. Для заданий, в которых используется только дихотомическая оценка (1 или 0), мера вариации определяется по сравнительно простой формуле:

sj2 = pj qj     (2.4)

Значения дисперсии по каждому заданию, рассчитанные по этой формуле, представлены в пятой строке нижней части таблицы 2.2.

Помимо вариации баллов в каждом задании считается вариация тестовых баллов испытуемых, набранных ими в тесте, по всем заданиям. Расчет показателей вариации тестовых баллов начинается с определения суммы квадратов отклонений значений баллов от среднего арифметического тестового балла (SSy), по формуле:

SSy=Сумма (Yi - My)2     (2.5)

Для данных таблицы 2.2

SSy = [(9 - 5)2 + (8 - 5)2 + (7 - 5)2 + (6 - 5)2 + (6 - 5)2 + (5 - 5)2+ (5 - 5)2 + (5 - 5)2 + (4 - 5)2 + (4 - 5)2 + (3 -5)2+ (2-5)2+ (l-5)2=

42+ 32+ 22+ 12+ l2+ 02+ 02+ 02+ (-l)2+ (-l)2 + (-2)2+ (-3)2+ (-4)2= 62

У показателя SSy тоже есть недостаток, который заключается в его зависимости от числа испытуемых: при прочих равных условиях, чем больше группа, тем большей оказывается Сумма (Yi - My)2, что делает этот показатель несопоставимым для групп с разным числом испытуемых. Поэтому для исправления отмеченного недостатка используют второй прием - делят SSy на число испытуемых в группе. В результате получается стандартный показатель вариации тестовых баллов, называемый дисперсией sy2 или, по-старому, вариансой.

Для тестовых баллов в столбце Yi табл. 2.2 дисперсия вычисляется по формуле:

     (2.6)

При N, равном тринадцати испытуемым, дисперсия равна:

Для удобства в интерпретации тестовых результатов вместо дисперсии часто используется стандартное отклонение тестовых баллов от средней арифметической. Оно обозначается символом Sy и вычисляется как корень квадратный из значения sy2.

     (2.7)

Стандартное отклонение Sy является общепринятой мерой вариации тестовых баллов.

Подставляя наши данные, получаем

Дифференцирующая способность является четвертым требованием к тестовым заданиям.

Если на какое-то задание правильно отвечают все тестируемые, то такое задание не дифференцирует сильных от слабых и потому ему в тесте делать нечего. Нет в тесте места и тем заданиям, на которые нет ни одного правильного ответа; в матрице по ним ставят одни нули.

Понятие корреляции.
Расчет классического коэффициента корреляции Пирсона.

Задание в тестовой форме нельзя называть тестовым, если оно не коррелирует с суммой баллов по всему тесту.

Коррелируемость задания с критерием (r) - представляет собой более точную и технологичную меру дифференцирующей способности задания. В ошибочных текстах эту меру нередко называют "валидностью задания". В качественной современной литературе понятие валидность не принято относить ни к свойству задания, ни даже к свойству теста. Его используют при интерпретации соответствия результатов тестирования поставленным целям.

. Коррелируемость проверяется посредством расчета коэффициента корреляции r, где символом r обозначается так называемый классический коэффициент корреляции Пирсона, или один из его вариантов.

Для расчета r формируется два вектор-столбца, один из которых - задание (Xj), другой- критерий (Y). Между значениями этих двух векторов и устанавливается мера связи, если таковая существует.

При проверке тестовых заданий в качестве критерия, для начала, используется сумма баллов испытуемых, полученная по всем заданиям пробного варианта теста. Символ j представляет номер коррелируемого задания, а символ Y- числовой вектор-столбец тестовых баллов испытуемых.

Формулы для расчета коэффициентов корреляции и примеры расчета даются ниже.

Для проверки, например меры связи ответов испытуемых по заданию № 7 (Х7) с суммой баллов тех же испытуемых по всему тесту, строится вспомогательная таблица 2.3, в которой использованы соответствующие данные таблицы 2.2.

Табл. 2.3. Пример расчета коэффициента корреляции

X7

Yi

X7Yi

X2

Yi2

1

9

9

1

81

1

8

8

1

64

1

7

7

1

49

0

6

0

0

36

0

6

0

0

36

1

5

5

1

25

1

5

5

1

25

0

5

0

0

25

0

4

0

0

16

0

4

0

0

16

0

3

0

0

9

0

2

0

0

4

0

1

0

0

1

В первой колонке приводятся значения баллов, полученных испытуемыми в седьмом задании. Сумма этих баллов равна 5, или å Х7 = 5.

Во второй колонке представлены тестовые баллы (Yi); å Yi = 65.

В третьей колонке даются произведения баллов каждого испытуемого по седьмому заданию (Х7) и по сумме баллов (Y); å Х7Y = 34.

В четвертой и пятой колонках - квадраты значений Х7 и Y; Соответственно, åХ72 = 5 и å Y2 = 387.

Для расчета коэффициента корреляции используются четыре формулы:

1. Вначале находится сумма квадратов отклонений баллов испытуемых от среднего арифметического балла в интересующем задании (SS по заданию Х7).

2. Затем находится сумма квадратов отклонений тестовых баллов испытуемых от среднего арифметического балла по всему тесту (SSy). Подставляя известные данные, получаем

3. Находится так называемая скорректированная, на средние значения, сумма попарных произведений Х и Y, по формуле:

В этой формуле å XY представляет собой сумму произведений баллов каждого испытуемого по седьмому заданию и по Y, тестовому баллу испытуемых.

Вторая часть формулы представляет собой коррекцию на средние значения произведений Хi на Yi.

4. Рассчитывается классический коэффициент корреляции:

     (2.8)

Подставляя в эту формулу результаты проведенных расчетов, получаем:

Чем выше значения r, тем больше вероятность превращения задания в тестовой форме в тестовое задание, то есть быть включенным в тест. Особенно заметно эта вероятность повышается при г > 0,4.

Если взять значение r2 * 100%, то получим значение так называемого коэффициента детерминации, выраженного в удобной для интерпретации процентной мере связи задания с суммой баллов.

Для взятого примера коэффициент детерминации у седьмого задания равен

0,6522 * 100% = 42,5 %,

что можно интерпретировать так: 42,5% вариации суммы тестовых баллов испытуемых по всем заданиям связано с вариацией баллов по одному только седьмому заданию, что указывает на очень высокий потенциальный вклад седьмого задания в общую дисперсию теста.

Нулевая корреляция свидетельствует об отсутствии у задания системных свойств, присущих тесту. Такие задания, равно как и задания с отрицательными значениями rxy устраняются из тестовых материалов, как не выдержавшие эмпирической проверки.

Иногда приходится рассматривать особые случаи возможности включения заданий в тест, хорошо коррелирующих с другими заданиями, но слабо или вообще не коррелирующих с суммой баллов (или внешним критерием).

Расчет Point-biserial коэффициента корреляции.

При наличии больших выборочных совокупностей и так называемого нормального распределения баллов по всему тесту теоретически предпочтительнее рассчитывать другой вариант коэффициента корреляции Пирсона, который называется, point-biserial коэффициентом корреляции

     (2.9)

где Mi- среднее арифметическое по всему тесту для испытуемых, получивших по данному заданию один балл;

M2- среднее арифметическое по всему тесту для испытуемых, получивших по данному заданию ноль баллов;

n1 - число испытуемых, получивших в задании один балл;

n0 - число испытуемых, получивших в задании ноль баллов.

При использовании данной формулы из таблицы 2.3 используются следующие данные:

Один балл по седьмому заданию получили 1, 2, 3, 6 и 7 испытуемые. Сложение полученных ими баллов по Y дает

9+ 8+ 7+ 5+ 5= 34;

среднее арифметическое Mi = 34 / 5 = 6,800.

Ноль баллов по этому же заданию получили 4, 5, 8, 9, 10, 11, 12, и 13 испытуемые. Сложение полученных ими баллов по Y дает

6+ 6+ 5+ 4+ 4+ 3+ 2+ 1= 31;

среднее арифметическое Мо = 31/8 = 3,875,

При n1= 5, n0= 8; n= 13, подстановка полученных данных в формулу 2.9 даёт

Сравнение rрb = 0,651 и полученного ранее по формуле (2.8) rху = 0,652 подтверждает сходство полученных значений и практическую достаточность использования любой одной из этих формул.

Анализу тестовых свойств задания очень способствует расчет полной корреляционной матрицы, в которой представляются корреляции каждого задания со всеми остальными заданиями, а также корреляции с суммой баллов. Пример такой матрицы расчета классических коэффициентов корреляции Пирсона приводится в табл. 2.4.

Табл. 2.4. Корреляционная матрица по данным таблицы 2.1.

 

1

2

3

4

5

6

7

8

9

10

ryj

1

1.000

-0.1231

0.3651

0.3118

0.2673

0.2673

0.2282

-0.4330

0.1581

-0.6770

0.2484

2

-0.1231

1.0000

0.1011

0.4606

-0.0329

-0.0329

0.3371

0.2843

0.2335

0.1818

0.4623

3

0.3651

0.1011

1.0000

0.2196

0.0976

0.4148

-0.0250

-0.1581

0.0577

0.1409

-0.4606

4

0.3181

0.4606

0.2196

1.0000

0.2381

0.2381

0.4148

-0.0514

0.1409

-0.4606

0.5205

5

0.2673

-0.0329

0.0976

0.2381

1.0000

0.3810

0.2196

0.0514

0.2254

0.0329

0.5152

6

0.2673

-0.0329

0.4148

0.2381

0.3810

1.0000

0.2196

0.3858

0.5916

0.0329

0.7223

7

0.2282

0.3371

-0.0250

0.4148

0.2196

0.2196

1.0000

0.1581

0.6928

0.1011

0.6640

8

-0.4330

0.2843

-0.1581

-0.0514

0.0514

0.3858

0.1581

1.0000

0.4260

0.6396

0.4704

9

0.1581

0.2335

0.0577

0.0577

0.2254

0.5916

0.6928

0.4260

1.0000

0.2725

0.7541

10

-0.6770

0.1818

-0.1011

-0.4606

0.0329

0.0329

0.1011

0.6396

0.2725

1.0000

0.2055

Y

0.2484

0.4623

0.3973

0.5205

0.5152

0.7223

0.6640

0.4704

0.7541

0.2055

1.0000

В этой матрице внимание разработчика теста в первую очередь направляется на значения корреляций заданий с суммой баллов (последний столбец) и на суммы в последней строке rjy.

При прочих равных условиях, в тест скорее попадут те задания, у которых корреляция с суммой баллов будет выше. В нашем случае, вряд ли является тестовым первое задание, имеющего невысокую связь с суммой баллов- всего 0,2484.

Кроме того, обращается внимание на интеркорреляции, т.е., на корреляции заданий между собой внутри теста. Встречается немало отрицательных корреляций, что указывает на разнонаправленность вариации баллов: единицы по одному заданию сопутствуют нулям по другому заданию.

Расчетом корреляционной матрицы заканчивается первый этап разработки тестовых заданий. После этого начинается работа над созданием первого варианта теста.

Статистические характеристики теста.

Как результат измерения, традиционный тест характеризуется рядом статистических показателей.

Исходные тестовые баллы полезно сгруппировать.

Табл. 2.5. Сгруппированные результаты тестирования.

Баллы

Частоты

%

Cum %

1

1

7,7

7,7

2

1

7,7

15,4

3

1

7,7

23,1

4

2

15,4

38,5

5

3

23,1

61,5

6

2

15,4

76,9

7

1

7,7

84,6

8

1

7,7

92,3

9

1

7,7

100

Результаты табл. 2.5 можно представить в виде гистограммы. На этой же гистограмме представлена кривая нормального распределения, показывающая идеально требуемое распределение тестовых результатов.

Чем лучше сделан тест и чем больше испытуемых, тем больше реальное распределение баллов, представляемое гистограммой, начинает приобретать форму распределения, изображаемого данной кривой.

Рис.2. Гистограмма тестовых результатов

Иногда, помимо ранее рассчитанного среднего арифметического значения, разработчика теста интересует наиболее повторяющееся значение, называемое в статистике модой (Мо).

Для данных приведенного примера, чаще других повторяется, у трех испытуемых, балл 5; следовательно, Мо = 5.

Если расставить в один ряд, по порядку значений, всех испытуемых, и посмотреть чему равняется балл у испытуемого, находящегося посредине, им окажется седьмой, по счету испытуемый с тестовым баллом 5. Это значение принимают равным медиане (Me).

В нашем примере значения средней арифметической (М), моды (Мо) и медианы (Me) совпадают, что случается довольно редко, только в случаях строго симметричного распределения эмпирических данных; чем больше отличаются эти статистики одна от другой, тем больше данные отклоняются от нормального распределения.

В связи с тем, что у разных испытуемых баллы различаются, можно говорить о вариации тестовых результатов. Отсутствие вариации свидетельствует либо об одинаковости испытуемых, либо о несостоятельности оценки, но скорее о втором.

Например, при использовании пятибалльной шкалы на приемных экзаменах в вузе абитуриенты получают совпадающие оценки (сотни троек), хотя ясно, что некоторые по знаниям ближе к четверке, а некоторые - к двойке.

Пятибалльная шкала, в силу ее грубости и субъективности, снижает вариацию там, где она в действительности есть, в то время как применение теста заметно повышает вариацию.

Основные положения теории тестов.

Иногда вариацию тестовых результатов полезно называть наблюдаемой переменной величиной. Это связано с тем, что в теории тестов центральное место занимает концепция латентной, непосредственно не наблюдаемой переменной величины. В соответствии с этой концепцией, посредством наблюдаемой переменной величины можно получить только приближенные значения ненаблюдаемых истинных баллов испытуемых.

Понятие точности измерения вытекает из философского постулата о неизбежной погрешности измерения: измеряемое значение (X) не равно истинному (Т). Следовательно, любой тестовый балл можно представить как сумму истинного и ошибочного компонентов измерения.

Первое основное положение классической теории тестов лучше выразить символически:

Х= Т+ Е,     (2.10)

где Е - символизирует некоторую ошибку (или точнее, ошибки измерения, проистекающие по различным причинам). Знак суммирования указывает на так называемый аддитивный способ связи T и Е.

Ошибка измерения Е имеет два истолкования- физическое и статистическое.

При физическом истолковании измерение тем точнее, чем меньше ошибок измерения.

Статистическое истолкование ошибки измерений знаний дополняет физическое идеей соотношения объема выборочной совокупности ответов с потенциальной генеральной совокупностью всех заданий теста, необходимых для точного тестирования по данной учебной дисциплине; чем точнее выборочная оценка, тем надежнее считаются тестовые результаты.

Погрешность может оказаться случайной или систематической. Последнюю можно учесть, в случае необходимости, в виде поправок, и потому для теории тестов они не представляют интереса.

Другое дело- случайные ошибки, вызванные состоянием испытуемого, случайное изменение некоторых условий проведения теста, различиями в наборах тех или иных заданий, предлагаемых различным испытуемым и многое другое. Взятые вместе, они рассматриваются как случайная ошибка измерения, хотя слово "ошибка" при этом надо трактовать не в привычном смысле допущенной (а потому и легко устранимой) оплошности, а в смысле неизбежной погрешности, определяемой неконтролируемыми факторами.

Здравый смысл подсказывает, что судить о знаниях всего проверяемого материала по ответу испытуемого на одно лишь задание довольно опрометчиво, хотя в каждой учебной дисциплине есть вопросы, правильные ответы на которые говорят о многом. Тем не менее, обоснованные выводы можно делать только по результатам применения достаточного числа заданий. Это происходит из-за того, что дисперсия истинных компонентов измерения возрастает как квадрат от числа k, показывающего - во сколько раз возросло число эквивалентных заданий теста, в то время как дисперсия ошибочных компонентов измерения меняется линейно от k.

Второе основное положение классической теории надежности- истинные компоненты (t) не коррелируют с ошибочными (е) компонентами измерения (rte = 0).

Если обнаружится, что высоким значениям тестовых баллов соответствуют и более высокие значения ошибок, с определенным знаком, то ясно, что такие ошибки нельзя считать случайными.

Например, отмеченное выше требование некоррелируемости в теории позволяет представить тестовый балл любого испытуемого в виде суммы истинного и ошибочного компонентов измерения

Yi= Ti + Ei,     (2.11),

где Yi означает тестовый балл испытуемого i;

Ti - неизвестный истинный тестовый балл испытуемого i, подлежащий определению;

Е; - ошибочная часть тестового балла, включающая в себя все возможные источники случайных ошибок измерения (ei, е2, ... eк).

Третье основное положение теории- ошибочные компоненты одного параллельного варианта не коррелируют с такими же компонентами другого, параллельного варианта теста (rte = 0).

Параллельный тест, имея внешне отличающееся содержание, должен, концептуально, измерять то же самое, что и исходный тест, с той же точностью.

Параллельными называются варианты, которые имеют сходное предметное содержание в пределах укрупненной учебной единицы, равные средние арифметические, равные дисперсии и равные интеркорреляции.

Хорошим примером параллельного теста является фрагмент зарубежного теста по арифметике, выполняемый в течение очень короткого времени, определяемым в зависимости от уровня подготовленности тестируемой группы.

Тест построен по интересному принципу: при расчете коэффициента надежности теста нечетные номера заданий образуют первую половину теста, четные - вторую половину. Содержание каждой пары заданий, начиная с первой, измеряет общий аспект арифметических знаний. Например:

1.

5+2=

25.

0,83+0.12=

2.

4+5=

26.

0,47+ 0.35 =

3.

4-2 =

27.

0,22- 0.13=

4.

9-6=

28.

0,87- 0.43 =

5.

3х2=

29.

0,22 х 0.10=

6.

2х4=

30.

0,15 х 0.20=

7.

9 | 3=

31.

0,21 | 0.10=

8.

6 | 2=

32.

0,48 | 0,24=

...

... ...

...

... ...

23.

48 | 12=

47.

4/12 | 2/3=

24.

4/12 | 2/3=

48.

8/32 | 4/16=

Каждый из компонентов выражения (2.11) варьирует на множестве испытуемых. Соответственно, из двух компонентов- истинного и ошибочного, состоит и дисперсия наблюдаемых тестовых баллов:

Sx2 = St2 + Se2     (2.12)

Теоретически надежность отражает идею точности измерения знаний заданиями теста, представляющими только часть из генеральной совокупности всех возможных заданий. В этом смысле понятие надежности измерения вытекает из философского постулата о неизбежной погрешности измерения: измеряемое значение (X) не равно истинному (Т).

Если выражение (2.12) разделить на Sх2, то слева получим единицу, а справа два интересных отношения. Первое из них St2 / Sх2 является теоретически и статистически точным определением надежности проведенного измерения, что полезно выразить словами: надежность тестовых результатов равна отношению дисперсии истинных компонентов измерения к дисперсии эмпирически полученных тестовых баллов.

Второе отношение Se2 / Sх2 определяется, напротив, как ненадежность тестовых результатов, и выражается как отношение дисперсии ошибочных компонентов измерения к дисперсии тестовых баллов.

В практическом смысле надежность часто понимается, как мера одинаковости, повторяемости или связанности двух измерений одного и того же качества, одним и тем же тестом, или его параллельными вариантами. Поэтому надежность часто выражается мерой корреляции между двумя параллельными вариантами теста.

Если тестовые баллы одного варианта обозначить символом X, а второго варианта - символом X', то надежность теста (rxx') определяется коэффициентом корреляции между X и X'.

Методы определения надежности тестовых результатов.

Определение качества теста чаще всего сводится к определению меры надежности и валидности результатов.

Как и объективным, качественным можно назвать только тот метод измерения, который обоснован научно и способен дать требуемые результаты. В западной литературе традиционно рассматривается два основных критерия качества: валидность и надежность.

Понятие "Валидность" означает меру пригодности тестовых результатов для определенной цели.

Валидность зависит от качества заданий, их числа, от степени полноты и глубины охвата содержания учебной дисциплины (по темам) в заданиях теста. Кроме того, от баланса и распределения заданий по трудности, от метода отбора заданий в тест из общего банка заданий, от интерпретации тестовых результатов, от организации сбора данных, от подбора выборочной совокупности испытуемых и другого.

Надежность тестовых результатов часто выражается мерой корреляции между двумя параллельными вариантами теста. Если тестовые баллы одного варианта обозначить символом X, а второго варианта - символом X, то надежность теста определяется коэффициентом корреляции между Х и X'.

Раньше писали о надежности теста, как о критерии его качества. При этом предполагалось, что мера надежности является устойчивой характеристикой теста. Однако это не так. На надежность сильно влияет степень гомогенности групп испытуемых, уровень их подготовленности, распределение баллов, максимальные и минимальные значения тестовых баллов, а также другие факторы, связанные не столько с тестом, сколько с условиями его проведения. Вот почему в последние годы стали чаще писать о надежности измерения, имея в виду тест как результат тестирования в определенных условиях, а не общую характеристику теста как некоего всеобщего метода.

Изменения значения дисперсий заданий и общей дисперсии теста приводят к изменению надежности теста, что видно из структуры формулы Kuder - Richardson 20 (сокращенно KR - 20), названной так по фамилии авторов и номеру формулы, предложенной в их статье.

     (2.13)

где r - коэффициент надежности теста;

k - число заданий в тесте;

åpjqj, - сумма дисперсий заданий теста;

Sх2 - общая дисперсия баллов испытуемых по всему тесту.

Подстановка данных табл. 2.2 дала бы следующий результат:

Но этого делать не следует, потому что, к сожалению, эта формула часто применяется без учета теоретических ограничений на ее применимость. Она уместна только в редких случаях равенства дисперсий большинства заданий теста. Такого равенства практически не бывает, да и не должно быть при небольшом числе заданий гомогенного теста, использующих оценки 1 и 0. Фактически это означало бы подбор заданий одного уровня трудности.

Напомним, что гомогенный тест измеряет знания по одной учебной дисциплине, одной теме, по одной части какой - либо изучаемой науки.

Если предположение о гомогенности заданий теста находит подтверждение, то надежность теста теоретически более обоснованно считать по другой формуле тех же авторов, по KR-8.

     (2.14)

Практическое применение этой формулы для оценки надежности измерения знаний показано на примере вычислений по данным табл. 2.2.

В первой части этой формулы sy2 представляет значение дисперсии тестовых баллов. В нашем примере она рассчитывалась по формуле 2.7 и равна 5, 167.

åpjqj- это сумма дисперсий всех заданий табл. 2.2. Она равна 1,915.

Вторая часть этой формулы, взятая в квадратные скобки, состоит из квадрата отношения, представленного в первой части и отношения, в котором определению подлежит только år2xy * pjqj значения квадратов коэффициентов корреляции каждого задания с суммой баллов; индекс j означает номера заданий с первого по десятого. Значение суммы представлено в последней ячейке вспомогательной таблицы 2.6, приводимой ниже.

Таблица 2.6. Вспомогательная.

№№

1

2

3

4

5

6

7

8

9

10

å

rjy

0.132

0.488

0.305

0.494

0.494

0.706

0.651

0.534

0.757

0.293

 

r2jy

0.017

0.238

0.093

0.244

0.244

0.498

0.424

0.285

0.565

0.086

 

pjqj

0.071

0.130

0.213

0.248

0.248

0.248

0.236

0.213

0.178

0.130

1.915

r2jy pjqj

0.001

0.031

0.020

0.060

0.060

0.123

0.100

0.061

0.100

0.011

0.567

Подставляя имеющиеся значения в формулу 2.14 для определения надежности теста, получаем:

Полученные значения надежности и стандартного отклонения тестовых баллов используется далее для расчета так называемой стандартной ошибки измерения (sе). Это название неточное, потому что фактически sе- это вовсе не ошибка, а стандартная статистическая мера вариации ошибочных компонентов измерения, определяемая по формуле 2.15:

     (2.15)

где sy - стандартное отклонение тестовых баллов испытуемых;

rxx'- коэффициент надежности измерения.

Подстановка в эту формулу полученных данных по формулам 2.7 и 2.14 дает:

Полученное значение sе используется далее для построения так называемого доверительного интервала, в пределах которого находится, вероятнее всего, истинное значение тестового балла испытуемого.

Для построения такого интервала вначале выбирается один из трех уровней риска допустить ошибку в своем выводе. Чаще других используется 5-ти процентный уровень, которому и соответствует табличное значение t- распределения Стьюдента, равное больше или меньше двух, в зависимости от числа испытуемых. Для удобства оно обычно принимается примерно равным 2. После этого доверительный интервал определяется из выражения

Дельта i = Yi + tse     (2.16)

Подставляя тестовый балл любого испытуемого, можно найти интервал, в пределах которого находится истинное значение тестового балла.

Например, для первого испытуемого Дельта i = 9 + (2) (1,230) = 9 + 2,460.

С риском ошибиться в пяти случаях из ста подобных выборок, можно сказать, что истинный балл испытуемого, получившего в данном небольшом примере тестовых результатов 9 баллов, может варьировать, скорее всего, от 6,540 до 11,460. Это довольно большой интервал, неприемлемый в профессиональной работе; это значение объясняется малым числом испытуемых и малым числом заданий: именно от них зависит надежность тестовых результатов, и следовательно, значение стандартной ошибки измерения.

Для того чтобы убедиться в этом, достаточно внимательно проанализировать структуру формулы 2.15. По мере роста коэффициента надежности значение стандартной ошибки измерения начинает падать пропорционально корню квадратному из разности 1- rxx'.

Уменьшение sе и соответственно, доверительного интервала является одним из самых верных показателей качества измерения знаний, проведенного посредством теста. При сравнении двух тестов, подготовленных для измерения одного и того же, преимущество отдается тесту с меньшей стандартной ошибкой измерения.

Можно также сказать, что качественный тест образует шкалу, которая может быть определена как средство для измерения свойства объектов. Шкала представляет собой числовую систему, в которой отношения между различными объектами выражены свойствами числового ряда. Роль элементарной единицы измерения выполняют контрольные задания, подобранные для определения уровня знаний. Объектом измерения является носитель знаний. Наиболее корректное средство измерения- тест. Получаемые при измерении числа позволяют глубже проникнуть в суть изучаемых явлений, что особенно важно для научно обоснованной постановки тестового контроля.

Если в формуле Sx2 = St2 + Se2 произвести перестановку St2 = Sx2 - Se2, разделить затем справа и слева на Sx2, то получим выражение для определения надежности тестовых результатов по формуле Rulon, где отношение St2 / Sx2 слева - данное выше определение надежности теста, а отношение справа равно 1 - Se2 / Sx2. После обозначения отношения слева символом rxx' формула Rulon приобретает классический, для тестовой литературы, вид:

rxx' = 1-   Se2 / Sx2     (2.17)

В зависимости от того, каким способом будет определяться Se2 будет зависеть и величина надежности тестовых результатов.

Помимо отмеченных, в практике тестирования чаще других используются такие методы определения надежности тестов, как:

Эффективным можно назвать тест, который лучше, чем другие тесты, измеряет знания испытуемых интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это- по возможности, в комплексе.

С понятием "эффективность" сопряжено и близкое к нему по содержанию понятие "оптимальность". Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым поочередно или вместе.

Эффективный тест не может состоять из неэффективных заданий. В таком случае естественно поставить вопрос о признаках, которые отличают эффективное задание от неэффективного. С точки зрения содержания, эффективное задание проверяет важный элемент содержания учебной дисциплины, который нередко называют ключевым для требуемой структуры знаний испытуемых. В тест соответственно включаются только такие задания, которые эксперты признают в качестве ключевых элементов изучаемой учебной дисциплины.

В определении эффективности теста обращается внимание на два ключевых элемента- это число заданий теста и уровень подготовленности испытуемых .

Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий в таком случае можно называть сравнительно более эффективным.

Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный момент испытуемых. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню.

Легко понять практическую бесполезность того, чтобы давать слабым испытуемым трудные задания; большинство испытуемых, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим испытуемым, потому что и здесь высока вероятность, но теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том, и в другом случае испытуемые не будут различаться между собой.

Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест- это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых .

Эффективность тестов может зависеть и от формы . Нарушение тестовой формы всегда приводит к худшему выражению содержания и к худшему пониманию смысла задания испытуемыми.

Эффективность теста зависит также и от принципа подбора заданий . Если подбирать задания для измерения на всем диапазоне изменения трудности, то снижается точность измерения на отдельном участке. И наоборот, если стремится точно измерить знания испытуемых, например, среднего уровня подготовленности, то это потребует иметь больше заданий именно данного уровня трудности.

Поэтому тест не может быть эффективным вообще, на всем диапазоне подготовленности испытуемых. Он может быть более эффективен на одном уровне знаний и менее - на другом. Именно этот смысл вкладывается в понятие дифференциальной эффективности теста .

Соответствие уровня трудности теста уровню подготовленности испытуемых можно попытаться оценить показателем количества информации, получаемой в процессе измерения. Впервые этот показатель в практику тестирования ввел А. Birnbaum.

Повторное редактирование сделано 8 апреля 2007г.

Используются технологии uCoz