Обзор публикаций журнала
«Педагогические Измерения» по Rash Measurement
Вадим Аванесов
Аннотация
В статье сделан краткий обзор публикаций научно-методического журнала, относящихся к метрической системе Rasch Measurement (RM).
Ключевые слова: педагогические измерения, метрическая система, Rasch Measurement (RM).
Примечательно, что к вопросам применения и развития метрической системы RM журнал «Педагогические измерения» обратился с самого первого номера, вышедшего в свет в конце 2004 года. С той поры в данном направлении российскими авторами был пройден путь от отдельного опыта использования компьютерной программы RUMM-2010 до уровня теоретических исследований и развития вопросов методологии RM. И эта работа продолжается. Сейчас можно даже сказать, что для авторов российского научно-методического журнала «Педагогические Измерения» RM стало ведущей исследовательской проблемой.
Как отмечали зарубежные авторы[1] нашего журнала, RM стало популярным во всём мире, и в различных сферах. Эта популярность касается не только сфер педагогики и психологии, но и социологии, медицины. В их статье были перечислены преимущества RM, по сравнению с классической (статистической) теорией тестов и с математической теорией педагогических измерений (Item response Theory, IRT).
Все публикации журнала «Педагогические Измерения» по RM удобно разделить на три группы, в зависимости от привычного в науке деления на уровни исследований. К первому уровню можно отнести опыты применения RM для решения практических задач и проведения эмпирических исследований. Ко второму уровню можно отнести статьи, в которых ставятся и решаются проблемы теории и технологии RM. К третьему уровню можно отнести статьи по методологии RM. Очевидно, в настоящей науке нужны и важны исследования любого уровня исследования.
1. Применение программ. Первой, по времени, была опубликована статья, в которой специальная компьютерная программа RUMM–2010, технологически реализующая возможности RM, была использована для получения показателей сравнительного уровня развития образования в областях и регионах РФ. То, что Москва и Санкт-Петербург имеют наиболее высокий уровень развития сферы образования, являлся ожидаемым результатом. Несколько неожиданным и необъяснённым оказался третий ранг Чукотского автономного округа[2].
На этом факте хотелось бы немного задержаться. Этот и другие результаты применения программы по RM требовали интерпретации полученного вывода, о зависимости результатов от количества и качества используемых показателей. Иначе говоря, здесь напрашивалось обсуждение вопроса соотношения фактов и возможных артефактов, вызванных несовершенством используемых сейчас счётных показателей. Или иначе, это вопрос валидности используемой системы показателей. Но данный аспект во многих статьях не затрагивается. Между тем вопрос соотношения получаемых данных и их педагогически обоснованной интерпретации – один из главных и трудных в педагогических измерениях. Потому что все содержательные выводы зависят от используемых показателей, от меры их пригодности для решаемой проблемы[3].
В лексике педагогических измерений это вопрос методологии многие авторы традиционно относят к валидности показателей или тестов. Вспомним, какое внимание зарубежные методологи последних лет придавали различиям между устаревшими понятиями «критериально-ориентированный тест», «нормативно-ориентированный тест», а также понятиями «критериально-ориентированная интерпретация тестовых результатов» и «нормативно-ориентированная интерпретация тестовых результатов. Строго говоря, нет упомянутых тестов, а есть та или иная интерпретация. Из этого можно понять, что результаты одного и того же теста могут быть интерпретированы с разных позиций.
Попытка разработки качественной социологической анкеты, с применением технологии RM, для исследования вредных привычек у молодых людей была предпринята в исследовании А. А. Маслака[4].
Затем последовала публикация по вопросам применения компьютерной программы RUMM-2010, для анализа качества заданий с выбором одного правильного ответа[5]. Было показано, что эта программа, основанная на технологии RM, позволяет провести более углубленный анализ метрических свойств, и не только теста в целом, но и каждого задания. Анализ качества заданий в той статье проводился по следующим, как там было написано, аспектам RM:
- выявление и исключение из экстремальных заданий;
- совместимость заданий;
- соответствие уровня трудности разрабатываемого теста уровню подготовленности студентов;
- равномерность распределения заданий по трудности;
- диапазон варьирования трудности тестовых заданий;
- соответствие тестового задания модели измерения;
- оценка качества дистракторов.
Публикация статей по применению компьютерной программы RUMM–2010 была продолжена работами В.С. Кима. В первой его статье была сделана удачная попытка анализа результатов тестирования[6]. Во второй статье эта же программа целенаправленно использовалась для проверки качества заданий[7]. В третьей статье, методической направленности, представлен алгоритм вычислений, используемый в программе RUMM-2020[8]. В четвёртой статье была сделана удачная попытка применить эту программу для углубленного научного анализа качества метода социологического исследования[9].
Алгоритм обработки эмпирических данных посредством программы RUMM-2010 изложила Г.Смирнова, сделав это доступным для педагогов языком[10]. Она же выявила различия в двух версиях программы RUMM[11].
В журнале «Педагогические «Измерения» была сделана попытка ввести в научный оборот российских исследователей ещё одну компьютерную программу - Winsteps. На эту тему написали статьи Г.Смирнова, вместе с А.Смирновым[12], а также С.Янченко[13].
Полученные выше научные результаты применения программ RUMM (в модификациях 2010 и 2020) и WINSTEPS (Ministep-бесплатной версией) для решения проблем развития практики педагогических измерений в России можно считать полезными. Именно этот успешный опыт возбудил в стране некоторый интерес к вопросам следующего уровня - теории и методологии RM.
2. Теория RM. Начало теоретическому процессу разработки вопросов RM положила обзорная статья О.В. Михеева. Хотя там RM было уделено очень небольшое внимание, в общем ряду с другими метрическими системами, это была полезная статья для становления общей культуры педагогических измерений в России [14].
Пожалуй, первым опубликованным в журнале чисто теоретическим исследованием оказалась статья С. Янченко. Она сделала важную попытку соединить возможности математической модели Г.Раша с актуальной задачей изучения уровня и структуры подготовленности испытуемых[15]. Полученные выводы были оригинальны, приведённый материал обладал заметным потенциалом развития. Однако развитие, к сожалению, не последовало.
После этого было опубликовано редкое, для нашего времени, теоретико-экспериментальное исследование точности оценок параметров модели Раша на основе алгоритма PROX. Выбор этого алгоритма не случаен: он самый простой и доступный для педагогов, стремящихся практически освоить методику RM. Проведенный авторами имитационный эксперимент позволил получить интересные выводы, совпадающие с теорией и важные для практики измерения латентных переменных величин.
Во-первых, оказалось, что минимальные и максимальные уровни подготовленности (0,8 - 1,0 логит[16]) оцениваются менее точно, чем уровни подготовленности, расположенные в середине интервала варьирования измеряемой латентной переменной (0,2-0,4 логит). Во-вторых, точность измерения латентной переменной значимо зависит от распределения измеряемой величины. Чем меньше дисперсия, тем выше точность измерения. Вместе с тем, точность измерения измеряемой латентной переменной величины оказалась независимой от вида её распределения[17].
Г.И. Смирнова в двух номерах журнала сделала попытку создания первого варианта тезауруса RM на русском языке[18]. Она же провела теоретико-эмпирический анализ метрических свойств заданий проектируемого теста[19].
Математические основы RM обстоятельно изложил О.Г.Деменчёнок[20]. Ему удалось установить преемственность и математически показать научную связь модели Раша со сформулированным Л.Л.Терстоуном и другими классиками требованием независимости (инвариантности) средств измерения от объекта измерения[21].
Интересен вывод О.Г. Деменчёнка относительно спорного соотношения данных модели и наоборот. По мнению J.M. Linacre[22], исправлять нужно не модель Раша, а исходные данные[23]. Подтверждая этот тезис, О.Г.Деменчёнок усиливает его следующим выводом: «Никакая модель не в состоянии корректно устранить все искажения исходных данных. Поэтому актуальность задачи получения пригодных исходных данных высока и не зависит от выбранной математической модели[24]. С этим можно полностью согласиться.
В недавних номерах журнала «Педагогические Измерения» проявил себя двумя замечательными теоретическими исследованиями Ю.Н.Каргин. В первой работе была предложена альтернативная однопараметрическая модель педагогических измерений, с идеей измерения уровня подготовленности испытуемых и уровня трудности заданий в шкале отношений[25]. Во второй работе этот автор представил новый аналитический метод решения основной задачи педагогических измерений - измерение уровня подготовленности испытуемых и уровня трудности тестовых заданий, а также разработал алгоритм решения этой задачи[26].
В статье В.С. Аванесова был дан развёрнутый методологический анализ целей и задач RM, изложены начала педагогически адекватной терминологии на русском языке, названы причины отставания исследований по RM в России от других стран мира. Сама система измерения Г.Раша была названа метрической. В этой системе изначально были выделены два взаимосвязанных объекта измерений – уровни трудности заданий и уровни подготовленности испытуемых, которые участвуют одновременно в процессе измерения. Поэтому такое измерение часто называют совместно проводимым (joint measurement)[27]. Здесь главное – метод трансформации исходных тестовых баллов в шкалу натуральных логарифмов, после чего, собственно, и появляется измерение. До начала процесса логарифмического преобразования исходные баллы тестирования не рассматриваются как результаты измерения[28].
Ранее, в статье В.Аванесова была исследована связь между RM и формой тестовых заданий. Широко используемые сейчас задания с выбором одного правильного ответа в принципе не подходят для применения в метрической системе Г.Раша, поскольку там всегда присутствует возможность угадывания правильного ответа теми, кто недостаточно подготовлен. Сам Г.Раш использовал задания открытой формы, но они недостаточно технологичны. В статье вместо тех и других заданий предложены задания с выбором нескольких правильных ответов, в которых вероятность угадывания правильного ответа близка к нулю, и которые технологичны. Это и есть подходящие формальные условия применения тестовых заданий в метрической системе RM.
Проведённый обзор показывает, что за время, прошедшее с начала выпуска российского научно-методического журнала «Педагогические Измерения», были получены заметные результаты. Они могли бы быть более весомыми, если бы ресурсы государства не тратились на бессмысленные контрольные материалы ЕГЭ, а направлялись бы на развитие культуры педагогических измерений, в том числе и RM. Но этого пока нет.
[1] Smith
[2] Анисимова, Т.С., Маслак, А.А., Седых С.И.//Измерение уровня развития сферы образования в регионах России. Педагогические Измерения, №1,
[3] Аванесов В.С. Проблема качества педагогических измерений //Педагогические Измерения, №2,
[4] Маслак Андрей А. Оценка статистической взаимосвязи между склонностьюстаршеклассниклв к курению и условиями их жизни и учёбы // Педагогические Измерения, №2.,
[5] Анисимова, Т.С., Маслак, А.А. Осипов С.А. Анализ качества заданий с выбором одного правильного ответа. Педагогические Измерения, № 3,
[6] Ким В.С. Анализ результатов тестирования в Rasch Measurement. Педагогические Измерения» №4, 2005, С. 39-45.
[7] Ким В.С. Анализ тестовых заданий в модели G.Rasch // Педагогические Измерения, №1, 2008г. С.49-58.
[8] Ким В.С. Обработка результатов тестирования компьютерной программой RUMM-2020 // Педагогические Измерения, №4, 2008. С.53-69. Эта же статья был напечатана, из-за ошибки редакции, повторно, в № 1, 2009. к счастью, статья оказалась очень полезной и нужной.
[9] Ким В.С. Использование компьютерной программы RUMM-2020 в социологических исследованиях // Педагогические Измерения, №2,
[10] Смирнова Г.И. Алгоритм обработки матриц результатов тестирования с оценкой 0-1-2 и более с помощью программы RUMM-2010 // Педагогические Измерения» №4, 2007, С. 86-90.
[11] Смирнова Г.И. Различия в программах RUMM--2010 и RUMM-2020 // Педагогические Измерения» №3, 2007, С. 69-77.
[12] Смирнова Г.И., Смирнов А. Начало работы с программой MINISTEP // Педагогические Измерения, №3,
[13] Янченко С.И. Начало работы в WINSTEPS c данными статистического пакета SPSS // Педагогические Измерения, №3,
[14] Михеев О.В. Математические модели педагогического измерения. // Педагогические Измерения № 2,
[15] Янченко С. И. Оценка уровня и структуры знаний испытуемых // Педагогические Измерения № 3,
[16] Это абстрактная стандартизованная единица измерения любых научно обоснованных признаков, интересующих исследователя. В нашем случае - это уровень подготовленности испытуемых и уровень трудности заданий теста. По-английски произносится как лоджит, с ударением на первом слоге. В традициях произношения слов с этим корнем на русском языке – использование буквы «г».
[17] Анисимова Т.С., Маслак А.А., Осипов С.А. и Хмара И.А. Исследование точности оценивания параметров модели Раша на основе алгоритма PROX. Педагогические Измерения, №2,
[18] Смирнова Г.И. Разработка тезауруса педагогических измерений Г.Раша. Педагогические Измерения» №3, 2005, С. 83-86; Смирнова Г.И. Разработка тезауруса педагогических измерений Г.Раша. Педагогические Измерения» №4, 2005, С.62-64.
[19] Смирнова Г.И. Анализ качества заданий педагогического теста по учебной дисциплине «Математика и информатика» // Педагогические Измерения» №4, 2006, С. 86-100.
[20] Деменчёнок О.Г. Математические основы Rasch Measurement // Педагогические Измерения, №1, 2010
[21] Thurstone L.L. Attitudes can be measured.//American Journal of Sociology, Vol. 33, January, 1928. 529-544 рр.
[22] Читается по-русски Линека, с ударением на первом слоге.
[23] Linacre J.M. The Rasch Model cannot be "Disproved"! //Rasch Measurement Transactions, 1996. 10:3. p.512-514.
[24] Деменчёнок О.Г. Математические основы Rasch Measurement // Педагогические Измерения, №1, 2010. С. 3-21.
[25] Каргин Ю.Н. Построение альтернативной модели педагогических измерений по системе Г.Раша // Педагогические Измерения. 2010. №4. С. 62-71.
[26] Каргин Ю.Н. Аналитический метод решения основной задачи педагогических измерений. // Педагогические Измерения. 2011. №2. С. 54-76.
[27] Аванесов В.С. Метрическая система Георга РАША - Rasch Measurement (RM). Педагогические Измерения №2, 2010. С.57-80.
[28] См. подробнее на эту тему: Аванесов В.С. Являются ли КИМы ЕГЭ методом педагогических измерений? ПИ №1,