ОЦЕНКА ПОГРЕШНОСТИ БАЛЛОВ
ЕДИНОГО ГОСУДАРСТВЕННОГО ЭКЗАМЕНА

Олег Деменчёнок

Восточно-Сибирский институт МВД России

AskSystem@yandex.ru

Предложена методика оценки нижнего предела погрешности тестового балла Единого государственного экзамена выпускников школ Российской Федерации (ЕГЭ), основанная на анализе количества и структуры заданий ЕГЭ, а также математической модели Partial Credit Model (PCM). Описана практическая реализация методики в электронной таблице Microsoft Excel. Показана слабая пригодность тестового балла ЕГЭ для обеспечения справедливого конкурса абитуриентов при зачислении в вузы.

Ключевые слова: тест, тестовый балл, ЕГЭ, погрешность измерения, математические модели педагогических измерений, Partial Credit Model.

Результаты измерений из-за погрешностей всегда несколько отличаются от истинного значения измеряемой величины. Анализ погрешностей педагогических измерений приобретает особую актуальность ввиду косвенного характера измерения (уровни подготовленности обучаемых и параметры тестовых заданий определяются расчетным путём на основе выбранной модели измерения) и невозможности проверки полученных результатов. Поэтому учёт допущенной погрешности является необходимым условием корректности педагогического измерения. На необходимость учёта погрешности измерений, проведения экспертизы качества измерительных материалов единого государственного экзамена неоднократно указывали многие авторы[1],[2].

Однако в свидетельство о результатах ЕГЭ выставляются окончательные баллы по общеобразовательным предметам без указания погрешности измерения. Это правомерно только в том случае, когда погрешность измерения не превышает 0,5 балла (т.е. погрешность менее половины цены деления шкалы)[3]. В противном случае следует либо явно указать погрешность измерения (например, 76±12 баллов), либо увеличить цену деления шкалы (например, до двадцати баллов: 0, 20, 40 … 80, 100 баллов).

К сожалению, организаторы ЕГЭ не предают гласности отчёты с анализом погрешности результатов ЕГЭ. Независимые эксперты не могут провести такой анализ из-за завесы секретности, окутавшей ЕГЭ.

Практически вся значимая информация о ЕГЭ включена в перечень сведений конфиденциального характера, в том числе:

·       критерии оценивания по предметам;

·       оригиналы бланков ЕГЭ, их электронные изображения и ксерокопии;

·       экзаменационные материалы, протоколы проверки заданий с развернутыми ответами;

·       итоговые протоколы;

·       аналитические и информационные материалы;

·       свидетельства о результатах ЕГЭ выпускников-участников ЕГЭ;

·       бланки апелляций по результатам ЕГЭ, решения Конфликтной комиссии;

·       резервные копии баз данных ЕГЭ.

Доступ к указанной информации ограничен в соответствии с законодательством Российской Федерации. Эти материалы запрещается публиковать в открытой печати, переписке, использовать в передачах по радио и телевидению, в публичных выступлениях. Гриф конфиденциальности делает процедуру ЕГЭ абсолютно непрозрачной, что снижает степень доверия к результатам ЕГЭ.

Однако конфиденциальность сведений ЕГЭ не является преградой для анализа погрешности самой применяемой технологии. Эту погрешность можно найти, исходя из количества и структуры заданий ЕГЭ, а также математической модели. Такое исследование способно пролить свет на реальные возможности ЕГЭ как инструмента педагогического измерения.

Примерная структура контрольных измерительных материалов ЕГЭ

В качестве примерной структуры экзамена ЕГЭ принят демонстрационный вариант контрольных измерительных материалов 2010 года по математике, подготовленный Федеральным институтом педагогических измерений и утвержденный директором этого института А.Г.Ершовым 21.07.2009 года[4] (сайт официального информационного портала ЕГЭ, http://www1.ege.edu.ru/images/stories/demo_2010/ma_demo_2010.pdf).

Экзаменационная работа состоит из 2 частей, включающих 18 заданий.

Часть 1 включает 12 заданий с кратким ответом (В1–В12) базового уровня по материалу курса математики. За правильный ответ на задание части 1 ставится 1 балл (неверный ответ или отсутствие ответа – 0 баллов).

Часть 2 содержит 6 более сложных заданий (С1-С6) по материалу курса математики. Максимальная оценка за задания второй части:

·       за первое и второе задание – 2 балла (за частично правильный ответ – 1 балла);

·       за третье и четвертое задание – 3 балла (частично правильный ответ – от 1 до 2 баллов);

·       за пятое и шестое задание – 4 балла (частично правильный ответ – от 1 до 3 баллов).

Полное и безошибочное выполнение всех заданий этого варианта ЕГЭ соответствует 30 баллам.

Надо отметить, что варианты контрольных измерительных материалов по другим общеобразовательным предметам обладают подобной структурой.

Параметры теста для оценки погрешности измерений

В соответствии с примерной структурой контрольных измерительных материалов ЕГЭ для проведения пробных расчётов примем тест, включающий 18 заданий, из которых:

-      12 дихотомических заданий (т.е. оцениваемых 0 или 1 баллом);

-      6 политомических задания (максимальный балл за первое и второе задание – 2 балла, за третье и четвертое – 3 балла, пятое и шестое – 4 балла).

К сожалению, нет никаких сведений о возможном распределении уровней трудности заданий. Автор полагает, что такое распределение становится известным только после проведения ЕГЭ, так как для определения уровней трудности заданий нужна достаточно представительная статистика ответов школьников, а получить такую статистику до проведения ЕГЭ нельзя ввиду конфиденциальности заданий. Поэтому в первом приближении примем распределение уровней трудности заданий b для пробных расчётов близким к равномерному:

-      12 дихотомических заданий равномерно распределены по уровню трудности от -5 до 2 (шаг равен 7/11, т.е. b1=-5; b2=-4,36; b3=-3,73 … b11=1,36; b12=2);

-      4 политомических задания имеют максимальный уровень трудности, равный 5; остальные уровни трудности этих заданий равномерно распределены от 1 до 5, что соответствует следующим значениям уровней трудности

·       b13 1=1; b13 2=5 (b13 1 – уровень трудности первого шага в 13 задании);

·       b14 1=1; b14 2=5;

·       b15 1=1; b15 2=3; b15 3=5;

·       b16 1=1; b16 2=3; b16 3=5;

·       b17 1=1; b17 2=2,33; b17 3=3,67; b17 4=5;

·       b18 1=1; b18 2=2,33; b18 3=3,67; b18 4=5.

Математическая модель измерений

Согласно находящейся на сайте официального информационного портала ЕГЭ www1.ege.edu.ru информации, результаты выполнения заданий обрабатываются в рамках модификации модели Раша с произвольными промежуточными категориями выполнения тестового задания, известной в англоязычной литературе как Partial Credit Model.

PCM – это наиболее известная математическая модель педагогических измерений с градацией степени правильности ответа (т.е. с возможностью учёта частично правильных ответов) [5]:

                                                                                       (1)

где pijх – вероятность достижения тестируемым результата xij (т.е. того, что тестируемый i выполнит ровно x шагов и получит х баллов в задании j); х=0, 1… xijxmax j количество шагов; xmax j максимально возможное количество баллов за задание j;  

Например, для задания, максимально оцениваемого двумя баллами, вероятности получения одного и двух баллов соответственно равны:

                                                                      (2)

                                                                      (3)

Если максимальная оценка задания равна трём баллам, имеем:

                                   (4)

                                    (5)

                                     (6)

Аналогичным образом можно применить уравнение Partial Credit Model (1) для анализа заданий с большим количеством градаций степени правильности ответа.

Для оценки стандартной ошибки измерения уровня подготовленности испытуемого i используется формула[6]:

,                                                             (7)

где m – число тестовых заданий.

Для заданий, максимально оцениваемых двумя баллами, уравнение (7) принимает вид:

.                                                           (8)

Запишем уравнение (7) для заданий, максимально оцениваемых тремя и четырьмя баллами:

,                                 (9)

.           (10)

Оценки стандартной ошибки измерения уровня подготовленности испытуемого для анализа заданий с большим количеством градаций степени правильности ответа находятся аналогичным образом.

Для дихотомических заданий (xmax j = 1) формула (7) существенно упрощается:

,                        (11)

где pij1= Pij – вероятность получения тестируемым i одного балла в задании j, что для дихотомического задания соответствует вероятности правильного ответа испытуемого i на задание j.

Вероятность правильного ответа для дихотомического задания может быть найдено по модели Георга Раша[7]:

.                                                                          (12)

Расчёт стандартной ошибки измерения уровня подготовленности

Все расчёты выполним в электронной таблице Microsoft Excel. Это позволит любому желающему перепроверить полученные результаты или провести оценку погрешности измерений для другой структуры контрольных измерительных материалов ЕГЭ.

Сначала введём исходные данные (см. рис.1) – идентификаторы заданий (строка 2) и испытуемых (столбец А), используя для простоты нумерацию. Примем, что уровни подготовленности выпускников q меняются от -5 до 5 с шагом 0,5 (столбец В), уровни трудности 12 дихотомических заданий равномерно распределены от -5 до 2 (шаг равен 7/11, т.е. b1=-5; b2=-4,36 … b12=2);от -5 до 4 с шагом 1/3 (b1=-5; b2=-4,67 … b28=4). Для политомических заданий введём все принятые ранее уровни трудности отдельных шагов, например: значения b15 1=1; b15 2=3; b15 3=5 поместим в ячейки S3, T3 и U3 (рис.1).

 

A

B

C

D

E

S

T

U

2

   

Задание 1

Задание 2

Задание 3

Задание 15

3

   

-5

-4,36

-3,73

1

3

5

4

Выпускник 1

-5

               

5

Выпускник 2

-4,5

               

6

Выпускник 3

-4

               

               

24

Выпускник 21

5

               

Рис.1. Ввод исходных данных

Далее рассчитаем вероятности правильных ответов. Для этого готовим форму (рис.2), аналогичную форме ввода данных и вводим расчётные формулы. Для дихотомических заданий в ячейку С29 запишем формулу (12) в соответствии с правилами Microsoft Excel =1/(1+EXP(C$3-$B4)) и скопируем содержимое С29 в диапазон ячеек С29:N49.

Для политомических заданий расчётные формулы составляются на основе уравнений (1-6). Так, для 15 задания, которое оценивается тремя баллами, в ячейки S29, T29 и U29 запишем:

·       =EXP($B4-S$3)/(1+EXP($B4-S$3)+EXP($B4-S$3)*EXP($B4-T$3)+EXP($B4-S$3)*EXP($B4-T$3)*EXP($B4-U$3))

·       =EXP($B4-S$3)*EXP($B4-T$3)/(1+EXP($B4-S$3)+EXP($B4-S$3)*EXP($B4-T$3)+EXP($B4-S$3)*EXP($B4-T$3)*EXP($B4-U$3))

·       =EXP($B4-S$3)*EXP($B4-T$3)*EXP($B4-U$3)/(1+EXP($B4-S$3)+EXP($B4-S$3)*EXP($B4-T$3)+EXP($B4-S$3)*EXP($B4-T$3)*EXP($B4-U$3))

Затем скопируем содержимое S29:U29 в диапазон S29:U49.

Аналогично вводятся формулы для других политомических заданий.

 

A

B

C

D

E

S

T

U

27

   

Задание 1

Задание 2

Задание 3

Задание 15

28

   

p1

p1

p1

p1

p2

p3

29

Выпускник 1

 

0,5

0,35

0,22

0

0

0

30

Выпускник 2

 

0,62

0,47

0,32

0

0

0

31

Выпускник 3

 

0,73

0,59

0,43

0

0

0

49

Выпускник 21

 

1

1

1

0,1

0,5

0,5

Рис.2. Расчёт вероятностей правильных ответов

Осталось найти погрешности измерений. Для этого запишем ходящие в уравнение (7) слагаемые в диапазон С4:АС24. Так, в ячейку С4 введём =C29*(1–C29), что соответствует выражению P11(1–P11), затем скопируем содержимое С4 в диапазон дихотомических заданий С4:N24.

Слагаемые уравнения (7) для политомических заданий составляются на основе уравнений (8-10). Например, для 15 задания в ячейку S4 запишем =S29+4*T29+9*U29-(S29+2*T29+3*U29)^2 и скопируем полученную формулу в диапазон S4:S24. Слагаемые остальных заданий вводятся аналогично.

Теперь рассчитаем стандартную ошибку измерения уровня подготовленности, для чего в ячейку АJ4 введём =1/СУММ(C4:AM4)^0,5 и скопируем эту формулу в диапазон AJ4:AJ24. Результаты свидетельствуют о нелинейном характере зависимости стандартной ошибки измерения s  от уровня подготовленности q (рис.3). Стандартная ошибка минимальна при уровне подготовленности, равном 2 логитам s(2)=0,52; максимальна при q = –5, достигая значения s(–5)=1,04.

Рис.3. Зависимость стандартной ошибки измерения
от уровня подготовленности

Оценка погрешности измерений в баллах

Результаты выполнения выпускником заданий ЕГЭ переводятся в стобалльную шкалу следующим образом[8]. Если участник ЕГЭ не выполнил ни одного задания и получил ноль первичных баллов, он получает ноль тестовых баллов. Если участник ЕГЭ верно выполнил все задания и получил максимально возможный первичный балл, он получает сто тестовых баллов. Тестовые баллы остальных участников ЕГЭ вычисляются с помощью линейного преобразования, переводящего отрезок шкалы логитов, ограниченный оценкой в логитах, соответствующей одному первичному баллу и оценкой в логитах, соответствующей первичному баллу, на единицу меньшему максимально возможного в отрезок на шкале тестовых баллов:

,                       (13)

где t - тестовый балл, q - оценка уровня подготовленности участника ЕГЭ в логитах, qmin - оценка в логитах, соответствующая одному первичному баллу, qmax - оценка в логитах, соответствующая первичному баллу, на единицу меньшему максимально возможного.

Нетрудно заметить, что по уравнению (13) интервалу уровней подготовленности qmin qmax соответствует диапазон от 6 до 94 тестовых баллов:

Таким образом, тестовый балл может принимать одно из 90 значений: 0; 6; 7; 8 … 93; 94; 100.

Коэффициент линейного преобразования (коэффициент масштабирования оценки в логитах) по формуле (13) равен:

.                                                                                                     (14)

Тогда стандартная ошибка измерения тестового балла может быть найдена из выражения:

.                                                                                     (15)

Результат такого преобразования показан на рис.4. Форма графика совпадает с формой линии графика рис.3, что объясняется линейностью преобразования. Стандартная ошибка измерения тестового балла изменяется в пределах от 4,6 до 9,2 балла.

Рис.4. Зависимость стандартной ошибки измерения
от тестового балла

Результаты теоретического исследования хорошо согласуются с немногочисленными опубликованными данными. Так, в работе В.Хлебникова[9] приведена зависимость стандартной ошибки измерения от тестового балла для ЕГЭ 2004 года по русскому языку (рис.5). Разумеется, полного совпадения графиков рис.4 и рис.5 нет – его и не может быть, поскольку это стандартные ошибки измерений, выполненных по разным общеобразовательным предметам и разным наборам заданий ЕГЭ. Однако числовые значения достаточно близки, что косвенно подтверждает корректность предлагаемой методики оценки погрешности результатов ЕГЭ.

Рис.5. Стандартная ошибка измерения ЕГЭ 2004 года
по русскому языку (по данным В.Хлебникова)

Подбор уровней трудности для набора заданий, обеспечивающего минимальную стандартную ошибку измерения

Самый точный измерительный инструмент даёт минимальную ошибку при измерении любого объекта. Следовательно, лучшим следует признать тот набор заданий, при котором стандартная ошибка минимальна для испытуемого с любым уровнем подготовленности. Формально это условие можно записать в виде:

.                                          (16)

Попробуем найти этот идеальный вариант. Для этого в ячейку AI26 введём формулу =МАКС(AI4:AI24), которая находит максимальное значение стандартной ошибки измерения s. Далее следует подобрать уровни трудности всех заданий таким образом, чтобы минимизировать значение AI26. Встроенное в электронную таблицу Microsoft Excel средство Поиск решения легко справляется с подобными задачами. В окне Поиска решения указываем целевую ячейку AI26, диапазон изменяемых ячеек C3:AF3 (в этих ячейках хранятся значения уровней трудности всех заданий) и отмечаем направление поиска – равной минимальному значению (рис.6). Кроме того, ограничим пределы изменения уровней трудности заданий интервалом [–5; 5], а для политомических заданий укажем, что уровень трудности каждого последующего шага должен быть больше уровня трудности шага предыдущего. Для увеличения точности решения можно с помощью кнопки Параметры увеличить принятое по умолчанию предельное число итераций и уменьшить относительную погрешность численного решения.

Рис.6. Ввод параметров поиска решения

Результаты поиска решения сведены в таблицу 1. С помощью такого набора заданий можно практически выровнять ошибку для всего интервала измерения: стандартная ошибка измерения находится в сравнительно узком интервале значений s = 0,62…0,66, что соответствует стандартной ошибке тестового балла st = 5,5…5,8 баллов (рис.7).

Уровни трудности заданий, обеспечивающие минимизацию ошибки измерения

Таблица 1

№ задания

Уровень трудности

№ задания

Уровень трудности

№ задания

Уровень трудности

        1         

-4,47

        2         

-4,45

        3         

-4,46

        4         

-4,46

        5         

-4,45

        6         

-4,43

        7         

-4,46

        8         

-4,35

        9         

-4,49

      10       

-2,18

      11       

0,95

      12       

1,39

      13       

b13 1=-1,51

b13 2=3,78

      14       

b14 1=-1,51

b14 2=3,78

      15       

b15 1=-1,25

b15 2=1,81

b15 3=4,20

      16       

b16 1=-1,25

b16 2=1,81

b16 3=4,20

      17       

b17 1=-0,55

b17 2=1,78

b17 3=4,78

b17 4=4,83

      18       

b18 1=-0,55

b18 2=1,78

b18 3=4,78

b18 4=4,83

Рис.6. Результаты минимизации стандартной ошибки
тестового балла

Очевидно, что реальное распределение уровней трудности заданий будет отличаться от идеального с точки зрения точности варианта, так как:

·       уровни трудности заданий определяются после проведения ЕГЭ. На этапе формирования наборов заданий эти уровни неизвестны, поэтому целенаправленный подбор заданий по уровню трудности невозможен;

·       даже при наличии достаточной статистики ответов на политомические задания представляется весьма проблематичным подбор нужного количества таких заданий с уровнями трудности каждого шага, полностью совпадающими со значениями, найденными при  минимизации стандартной ошибки измерения.

Поэтому найденная минимальная стандартная ошибка тестового балла st = 5,5…5,8  – это предельная точность, которую теоретически можно достичь при заданном количестве и структуре заданий ЕГЭ, а также математической модели оценивания. Рост реальной стандартной ошибки тестового балла может быть обусловлен:

·       неоптимальностью распределения уровней трудности заданий реального варианта ЕГЭ;

·       неравноценностью (непараллельностью) заданий отдельных вариантов ЕГЭ;

·       субъективностью оценивания экспертами заданий части С. Так, считается допустимым расхождение оценок экспертов за задание части С, не превышающее одного балла. Для рассматриваемого варианта ЕГЭ часть С содержит шесть заданий, поэтому допустимое расхождение может достигнуть шести баллов.

Оценка минимальной погрешности измерения

Стандартная ошибка тестового балла st  характеризует случайную ошибку педагогического измерения. Оценка погрешности измерения (ошибки нахождения тестового балла) связана со стандартной ошибкой зависимостью[10]:

Dt = e×st                                                                                                                                                                               (17)

где e – аргумент функции Лапласа, при котором она равна половине выбранного значения вероятности a (табличная величина, например: a = 0,68 соответствует e = 1,0; a = 0,90 соответствует e = 1,65; a = 0,997 соответствует e = 3,0 и т.д.).

Тестовый балл выпускника должен рассматриваться не как конкретное числовое значение, а как интервал вида t ± Dt. Например, в рассмотренном выше идеальном с точки зрения точности варианте тестовому баллу t = 63 соответствует стандартная ошибка Dt=5,78. Это означает:

-      с вероятностью 68% тестовый балл этого выпускника находится в интервале t = 63 ± 1×5,78 (или 57,2 … 68,8);

-      с вероятностью 90%      t = 63 ± 1,65×5,78 = 63 ± 9,5 (или 53,5 … 72,5);

-      с вероятностью 99,7%   t = 63 ± 3×5,78 (или 45,6 … 80,4).

Для наглядности зависимость доверительного интервала тестового балла от уровня подготовленности выпускника при a = 0,90 приведена на рис.8. Тестовому баллу соответствует не линия, а полоса шириной 19 баллов. Такова наилучшая теоретически достижимая точность при использовании технологии ЕГЭ – ошибка плюс-минус 9,5 баллов. При этом результат, равный 59 баллам, нельзя отличить от 50 баллов (или от 68 баллов), так как различие результатов меньше погрешности измерений.

Рис.8. Зависимость доверительного интервала тестового балла от уровня подготовленности выпускника при a = 0,90

Практическая пригодность тестового балла ЕГЭ

Основное назначение тестового балла ЕГЭ – обеспечение справедливого конкурса абитуриентов при зачислении в вузы.

Приёмные комиссии вузов учитывают тестовые баллы по общеобразовательным предметам, которые выставляются в свидетельствах о результатах ЕГЭ без указания погрешности измерения. Погрешность определения тестового балла не учитывается, и преимущество даже в один балл может оказаться решающим для зачисления в вуз, существенно повлиять на судьбу абитуриента.

При этом реальная погрешность тестового балла многократно превышает неявно заявляемую ошибку ±0,5 балла. Для рассмотренного демонстрационного варианта контрольных измерительных материалов единого государственного экзамена 2010 года по математике нижний предел стандартной ошибки тестового балла для всего интервала измерения равен 5,5 балла. Соответствующий нижний предел погрешности тестового балла при доверительной вероятности 90% равен 9,1 балла, т.е. реальная ошибка составляет не менее ±9,1 балла.  

Высокая погрешность тестового балла в определённой степени нивелирует различие результатов выпускников. Например, при указанной погрешности нет оснований признавать различие между 60 и 69 баллами, поскольку различие меньше погрешности измерения.

Таким образом, тестовый балл ЕГЭ ограниченно пригоден для обеспечения конкурса абитуриентов при зачислении в вузы.

Выводы.

1.     Разработанная методика позволяет оценить нижний предел погрешности тестового балла ЕГЭ на основе анализа количества и структуры заданий ЕГЭ, а также математической модели Partial Credit Model.

2.     Реальная погрешность тестового балла ЕГЭ многократно превышает неявно заявляемую ошибку ±0,5 балла.

3.     Без учёта погрешности измерения тестовый балл ЕГЭ слабо пригоден для обеспечения справедливого конкурса абитуриентов при зачислении в вузы.

4.     Для полного решения задач ЕГЭ необходима оценка погрешности тестового балла каждого выпускника, а также оптимизация количества и структуры заданий с целью снижения ошибки педагогического измерения.



[1] Аванесов В.С. Являются ли КИМы ЕГЭ методом педагогических измерений? // Педагогические измерения, № 3, 2007. с.3-26.

[2] Хлебников В. Краткий анализ технологии и результатов единого государственного экзамена (ЕГЭ) // Педагогические измерения, № 4, 2008. с.25-40.

[3] Тейлор Дж. Введение в теорию ошибок. Пер. с англ. – М.: Мир, 1985. – 272 с.

[4] Демонстрационный вариант контрольных измерительных материалов единого государственного экзамена 2010 года по математике. – М.: Федеральное государственное научное учреждение «Федеральный институт педагогических измерений», 2009. – 18 с.

[5] Wright B.D., Masters G.N. Rating Scale Analysis: Rasch Measurement. Chicago: Mesa Press, 1982. – 204 p.

[6] Там же: Wright B.D., Masters G.N. Rating Scale Analysis: Rasch Measurement. Chicago: Mesa Press, 1982. – 204 p.

[7] Rasch G. Probabilistic models for some intelligence and attainment tests. - Copenhagen, Denmark: Danish Institute for Educational Research, 1960.

[8] Методика шкалирования результатов ЕГЭ в 2008 году. – М.: Федеральная служба по надзору в сфере образования и науки, 2008. – 2с.; http://www1.ege.edu.ru/content/view/431/166/

[9] Хлебников В. Краткий анализ технологии и результатов единого государственного экзамена (ЕГЭ) // Педагогические измерения, № 4, 2008. с.25-40.

[10] Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. - М.: ЮНИТИ, 1998.

Используются технологии uCoz