Обзор публикаций журнала

«Педагогические Измерения» по Rash Measurement

Вадим Аванесов

testolog@mail.ru

Аннотация

 В статье сделан краткий обзор публикаций научно-методического журнала, относящихся к метрической системе Rasch Measurement (RM).

Ключевые слова: педагогические измерения,  метрическая система, Rasch Measurement (RM).

            Примечательно, что к вопросам применения и развития метрической системы RM журнал «Педагогические измерения» обратился с самого первого номера, вышедшего в свет в конце 2004 года. С той поры в данном направлении российскими авторами был пройден путь от отдельного опыта использования компьютерной программы RUMM-2010 до уровня теоретических исследований и развития вопросов методологии RM. И эта работа продолжается. Сейчас можно даже сказать, что для авторов российского научно-методического журнала «Педагогические Измерения» RM стало ведущей исследовательской проблемой.

Как отмечали зарубежные авторы[1] нашего журнала, RM стало популярным во всём мире, и в различных сферах. Эта популярность касается не только сфер педагогики и психологии, но и социологии, медицины. В их статье были перечислены преимущества RM, по сравнению с классической (статистической) теорией тестов и с математической теорией педагогических измерений (Item response Theory, IRT).

Все публикации журнала «Педагогические Измерения» по RM удобно  разделить на три группы, в зависимости от привычного в науке деления на уровни исследований. К первому уровню можно отнести опыты применения RM  для решения практических задач и проведения эмпирических исследований.  Ко второму уровню  можно отнести статьи,  в которых ставятся и решаются проблемы теории и технологии RM. К третьему уровню можно отнести статьи по методологии RM.   Очевидно, в настоящей науке нужны и важны исследования любого уровня исследования.

            1. Применение программ. Первой, по времени, была опубликована статья, в которой специальная компьютерная программа RUMM–2010, технологически реализующая возможности RM, была использована для получения показателей сравнительного уровня развития образования в областях и регионах РФ. То, что Москва и Санкт-Петербург имеют наиболее высокий уровень развития сферы образования, являлся ожидаемым результатом. Несколько неожиданным и необъяснённым оказался третий ранг Чукотского автономного  округа[2].

На этом факте хотелось бы немного задержаться. Этот и другие результаты применения программы по RM требовали интерпретации полученного вывода, о зависимости результатов от количества и качества используемых показателей. Иначе говоря, здесь напрашивалось обсуждение вопроса соотношения фактов и возможных артефактов, вызванных несовершенством используемых сейчас счётных показателей. Или иначе, это вопрос  валидности используемой системы показателей. Но данный аспект во многих статьях не затрагивается. Между тем вопрос соотношения получаемых данных и их педагогически обоснованной интерпретации – один из главных и трудных в педагогических измерениях. Потому что все содержательные выводы зависят от используемых показателей, от меры их пригодности для решаемой проблемы[3]

В лексике педагогических измерений это вопрос методологии многие авторы традиционно относят к валидности показателей или тестов. Вспомним, какое внимание зарубежные методологи последних лет придавали различиям между устаревшими понятиями «критериально-ориентированный тест», «нормативно-ориентированный тест», а также понятиями «критериально-ориентированная интерпретация тестовых результатов» и «нормативно-ориентированная интерпретация тестовых результатов.  Строго говоря, нет упомянутых тестов, а есть та или иная интерпретация. Из этого можно понять, что результаты одного и того же теста могут быть интерпретированы с разных позиций.

Попытка разработки качественной социологической анкеты, с применением технологии RM, для исследования вредных привычек у молодых людей была предпринята в исследовании А. А. Маслака[4].

Затем последовала публикация по вопросам применения компьютерной программы RUMM-2010, для анализа качества заданий с выбором одного правильного ответа[5]. Было показано, что эта программа, основанная на технологии RM, позволяет провести более углубленный анализ метрических свойств,  и  не только теста в целом, но и каждого задания.  Анализ качества заданий в той статье проводился по следующим, как там было написано, аспектам RM:

  - выявление и исключение из экстремальных заданий;

- совместимость заданий;

- соответствие уровня трудности разрабатываемого теста уровню подготовленности студентов;

- равномерность распределения заданий по трудности;

- диапазон варьирования трудности тестовых заданий;

- соответствие тестового задания модели измерения;

- оценка качества дистракторов.

            Публикация статей по применению компьютерной программы RUMM–2010 была продолжена работами В.С. Кима.  В первой его статье была сделана удачная попытка анализа результатов тестирования[6]. Во второй статье эта же программа целенаправленно использовалась для проверки качества заданий[7]. В третьей статье, методической направленности, представлен алгоритм вычислений, используемый в программе RUMM-2020[8]. В четвёртой статье была сделана удачная попытка применить эту программу для углубленного научного анализа качества метода социологического исследования[9]

Алгоритм обработки эмпирических данных посредством программы RUMM-2010 изложила Г.Смирнова, сделав это  доступным для педагогов языком[10]. Она же выявила различия в двух версиях программы RUMM[11]

В журнале «Педагогические «Измерения» была сделана попытка ввести в научный оборот российских исследователей ещё одну компьютерную программу  - Winsteps. На эту тему написали статьи Г.Смирнова, вместе с А.Смирновым[12], а также С.Янченко[13]

Полученные выше научные результаты применения программ RUMM (в модификациях 2010 и 2020) и WINSTEPS (Ministep-бесплатной версией)  для решения проблем развития  практики педагогических измерений в России можно считать полезными.  Именно этот успешный опыт возбудил в стране некоторый интерес к вопросам следующего уровня - теории и методологии RM.

2. Теория RM. Начало теоретическому процессу разработки вопросов RM положила обзорная статья О.В. Михеева. Хотя там RM было уделено очень небольшое внимание, в общем ряду с другими метрическими системами, это была полезная статья для становления общей культуры педагогических измерений в России [14].

Пожалуй, первым опубликованным в журнале чисто теоретическим исследованием оказалась статья С. Янченко.  Она сделала важную попытку соединить возможности математической модели Г.Раша с актуальной задачей изучения уровня и структуры подготовленности испытуемых[15]. Полученные выводы были оригинальны, приведённый материал обладал заметным потенциалом развития. Однако развитие, к сожалению, не последовало.

            После этого было опубликовано редкое, для нашего времени, теоретико-экспериментальное исследование точности оценок параметров модели Раша на основе алгоритма PROX. Выбор этого алгоритма не случаен: он самый простой и доступный для педагогов, стремящихся практически освоить методику RM.  Проведенный авторами имитационный эксперимент позволил получить интересные выводы, совпадающие с теорией и важные для практики измерения латентных переменных величин.

Во-первых, оказалось, что минимальные и максимальные уровни подготовленности (0,8 - 1,0 логит[16]) оцениваются менее точно, чем уровни подготовленности, расположенные в середине интервала варьирования измеряемой латентной переменной (0,2-0,4 логит). Во-вторых, точность измерения латентной переменной значимо зависит от распределения измеряемой величины. Чем меньше дисперсия, тем выше точность измерения. Вместе с тем, точность измерения измеряемой латентной переменной величины оказалась независимой от вида её распределения[17].

            Г.И. Смирнова в двух номерах журнала сделала попытку создания первого варианта тезауруса RM на русском языке[18]. Она же провела теоретико-эмпирический анализ метрических свойств заданий проектируемого теста[19].

Математические основы RM обстоятельно изложил О.Г.Деменчёнок[20]. Ему удалось установить преемственность и математически показать научную связь модели Раша со сформулированным Л.Л.Терстоуном и другими классиками требованием независимости (инвариантности) средств измерения от объекта измерения[21].

Интересен вывод О.Г. Деменчёнка относительно спорного соотношения данных модели и наоборот. По мнению J.M. Linacre[22], исправлять нужно не модель Раша, а исходные данные[23]. Подтверждая этот тезис, О.Г.Деменчёнок усиливает его следующим выводом: «Никакая модель не в состоянии корректно устранить все искажения исходных данных. Поэтому актуальность задачи получения пригодных исходных данных высока и не зависит от выбранной математической модели[24]. С этим можно полностью согласиться.

В недавних номерах журнала «Педагогические Измерения» проявил себя двумя замечательными теоретическими исследованиями  Ю.Н.Каргин. В первой работе была предложена альтернативная однопараметрическая модель педагогических измерений, с идеей измерения уровня подготовленности испытуемых и уровня трудности заданий в шкале отношений[25]. Во второй работе этот автор представил новый аналитический метод решения основной задачи педагогических измерений - измерение уровня подготовленности испытуемых и уровня трудности тестовых заданий, а также разработал алгоритм решения этой задачи[26].

В статье В.С. Аванесова был дан развёрнутый методологический анализ целей и задач RM, изложены начала педагогически адекватной терминологии на русском языке, названы причины отставания исследований по RM в России от других стран мира. Сама система измерения Г.Раша была названа метрической. В  этой системе изначально были выделены два взаимосвязанных объекта измерений – уровни трудности заданий и уровни подготовленности испытуемых, которые участвуют одновременно в процессе измерения. Поэтому такое измерение часто называют совместно проводимым (joint measurement)[27]. Здесь главное – метод трансформации исходных тестовых баллов в шкалу натуральных логарифмов, после чего, собственно, и появляется измерение. До начала процесса логарифмического преобразования исходные баллы тестирования не рассматриваются как результаты измерения[28].

Ранее, в статье В.Аванесова была исследована связь между RM и формой тестовых заданий. Широко используемые сейчас задания с выбором одного правильного ответа в принципе не подходят для применения в метрической системе Г.Раша, поскольку там всегда присутствует возможность угадывания правильного ответа теми, кто недостаточно подготовлен. Сам Г.Раш использовал задания открытой формы, но они недостаточно технологичны. В статье вместо тех и других заданий предложены задания с выбором нескольких правильных ответов, в которых вероятность угадывания правильного ответа близка к нулю, и которые технологичны. Это и есть подходящие формальные условия применения тестовых заданий в метрической системе RM.

Проведённый обзор показывает, что за время, прошедшее с начала выпуска российского научно-методического журнала «Педагогические Измерения», были получены заметные результаты. Они могли бы быть более весомыми, если бы ресурсы государства не тратились на бессмысленные контрольные материалы ЕГЭ, а направлялись бы на развитие культуры педагогических измерений, в том числе и RM. Но этого пока нет.



[1] Smith Everett V. Jr., Karen M. Conrad, Karen Chang, Jo Piazza. Введение в Rasch Measurement // Педагогические Измерения № 1, 2006, С.65-81.

[2] Анисимова, Т.С., Маслак, А.А., Седых С.И.//Измерение уровня развития сферы образования в регионах России. Педагогические Измерения, №1, 2004 г. С. 97-128.

[3] Аванесов В.С. Проблема качества педагогических измерений //Педагогические Измерения, №2, 2004 г. С. 3-27.

[4] Маслак Андрей А. Оценка статистической взаимосвязи между склонностьюстаршеклассниклв к курению и условиями их жизни и учёбы // Педагогические Измерения, №2., 2005 г.  С. 101-119. 

[5] Анисимова, Т.С., Маслак, А.А. Осипов С.А. Анализ качества заданий с выбором одного правильного ответа. Педагогические Измерения, № 3, 2005 г.

[6] Ким В.С. Анализ результатов тестирования в Rasch Measurement. Педагогические Измерения» №4, 2005, С. 39-45.

[7] Ким В.С. Анализ тестовых заданий в модели G.Rasch // Педагогические Измерения, №1, 2008г. С.49-58. 

[8]  Ким В.С. Обработка результатов тестирования компьютерной программой RUMM-2020 // Педагогические Измерения, №4, 2008. С.53-69. Эта же статья был напечатана, из-за ошибки редакции, повторно, в № 1, 2009.  к счастью, статья оказалась очень полезной и нужной.   

[9] Ким В.С. Использование  компьютерной программы RUMM-2020 в социологических исследованиях // Педагогические Измерения, №2, 2009 г. С. 61-75. 

[10] Смирнова Г.И. Алгоритм обработки матриц результатов тестирования с оценкой 0-1-2 и более с помощью программы RUMM-2010 //  Педагогические Измерения» №4, 2007, С. 86-90.

[11] Смирнова Г.И. Различия в программах RUMM--2010 и RUMM-2020 //  Педагогические Измерения» №3, 2007, С. 69-77.

[12] Смирнова Г.И., Смирнов А. Начало работы с программой MINISTEP // Педагогические Измерения, №3, 2006 г.  С. 106-113.

[13] Янченко С.И. Начало работы в WINSTEPS c данными статистического пакета SPSS // Педагогические Измерения, №3, 2006 г. С. 115-118. 

[14] Михеев О.В. Математические модели педагогического измерения. // Педагогические Измерения № 2, 2004 г. С.75-88.

[15] Янченко С. И. Оценка уровня и структуры знаний испытуемых // Педагогические Измерения № 3, 2005 г.  С. 38-64.

[16] Это абстрактная стандартизованная единица измерения любых научно обоснованных признаков, интересующих исследователя. В нашем случае - это  уровень подготовленности испытуемых и уровень трудности заданий теста. По-английски произносится как лоджит, с ударением на первом слоге. В традициях произношения слов с этим корнем на русском языке – использование буквы «г».  

[17] Анисимова Т.С., Маслак А.А., Осипов С.А. и Хмара И.А. Исследование точности оценивания параметров модели Раша на основе алгоритма PROX. Педагогические Измерения, №2, 2005 г. С.80-100.

[18] Смирнова Г.И. Разработка тезауруса педагогических измерений Г.Раша. Педагогические Измерения» №3, 2005, С. 83-86; Смирнова Г.И. Разработка тезауруса педагогических измерений Г.Раша. Педагогические Измерения» №4, 2005, С.62-64.

[19] Смирнова Г.И. Анализ качества заданий педагогического теста по учебной дисциплине «Математика и информатика» // Педагогические Измерения» №4, 2006, С. 86-100.

[20] Деменчёнок О.Г. Математические основы Rasch Measurement // Педагогические Измерения, №1, 2010

[21] Thurstone L.L. Attitudes can be measured.//American Journal of Sociology, Vol. 33, January, 1928. 529-544 рр.

[22]  Читается по-русски Линека, с ударением на первом слоге.

[23] Linacre J.M. The Rasch Model cannot be "Disproved"! //Rasch Measurement Transactions, 1996. 10:3. p.512-514.

[24] Деменчёнок О.Г. Математические основы Rasch Measurement // Педагогические Измерения, №1, 2010. С. 3-21.

[25] Каргин Ю.Н. Построение альтернативной модели педагогических измерений по системе Г.Раша // Педагогические Измерения. 2010. №4. С. 62-71.

[26] Каргин Ю.Н. Аналитический метод решения основной задачи педагогических измерений. // Педагогические Измерения. 2011. №2. С. 54-76.

[27] Аванесов В.С. Метрическая система Георга РАША - Rasch Measurement (RM). Педагогические Измерения №2, 2010. С.57-80. 

[28] См. подробнее на эту тему: Аванесов В.С. Являются ли КИМы ЕГЭ методом педагогических измерений? ПИ №1, 2009 г. С. 3-26.

Используются технологии uCoz