Опубликовано в журнале
«Педагогическая диагностика №4 2003г. С.69-78.
ПЕДАГОГИЧЕСКОЕ ИЗМЕРЕНИЕ
ЛАТЕНТНЫХ КАЧЕСТВ[1]
В.С.Аванесов
В докладе представлена
классификация теорий измерения латентных качеств и поставлена проблема
построения общей теории педагогических измерений. Сформулировано уточненное
определение теста. В ссылке отмечена непригодность ЕГЭ и КИМов.
1. Основные понятия
Латентные качества. Латентными называются
положительные и отрицательные качества личности, не поддающиеся
непосредственному измерению. Примерами являются «подготовленность студентов»,
«знание учебной дисциплины», «способность понимать» «интеллектуальное развитие»
и многое другое. Попытки измерения подобных качеств[2] на уровне обыденного
сознания оканчиваются словесными или численными оценками, содержащими в себе
немалые погрешности.
Попытки
судить о невидимых вещах по видимым проявлениям имели место еще в глубокой
древности. Например, Платон утверждал, что истинная астрономия занимается не
изучением движения наблюдаемых небесных тел, а изучением законов движения звезд
по математическому небу. Несовершенным изображением последнего является видимое
небо[3]. В эпоху Возрождения
скрытые качества рассматривались как некие силы, присущие всем вещам, причем
каждая вещь представлялась как нечто двойственное: чувственно воспринимаемый
предмет и внутреннее "скрытое качество"[4].
Идея и методы измерения
латентных качеств реализуются в тесной зависимости от эмпирических результатов.
Именно на основе реально наблюдаемых данных ставится задача воссоздания непосредственно
ненаблюдаемого качества, измеряемого с помощью модели. В науке эта ситуация не
является новой. С ней уже неоднократно сталкивались физики при изучении
микромира.
Педагогическое измерение. Опора на основные понятия
делает понятным смысл короткого, а потому общего определения: педагогическое
измерение – процесс отображения числами уровней проявления интересующих
латентных качеств личности. F.M.Lord и M.Novick определяют измерение как
такое присвоение чисел, которое верно отражает расположение испытуемых на
числовой шкале в зависимости от выраженности измеряемого качества[5].
В отличие от элементарных
оценок и некоторых простых физических измерений, процесс научно-педагогического
измерения латентных качеств личности
требует теоретизации. В последнюю входят: определение ведущего понятия,
проверка логической правильности имени измеряемого качества; определение
предмета измерения, а также системы индикаторов, понятийных и эмпирических,
указывающих на наличие или отсутствие интересующего качества[6]. Далее требуются
аксиоматика и математические формализмы, выбор подходящей модели и
стандартизация условий измерения. И, наконец, полученные результаты подлежат
аргументированной интерпретации с точки зрения их точности и соответствия ясно
сформулированной цели.
2. Краткий анализ теорий
измерений
Latent Trait Theory. Педагогическое измерение
латентных качеств в западной литературе ассоциируется с Latent Trait Theory (LTT)[7], которую можно перевести
как теорию измерения латентных качеств.
В начале 40-х годов
D.N.Lawly, задался целью получить такие оценки качества тестовых заданий,
которые не зависели бы от состава оцениваемой группы. Было понятно, что если
задание j давать хорошо подготовленной группе, то доля правильных ответов в ней
будет заметно выше, чем в слабо подготовленной группе. Возник вопрос - а какова
действительная мера трудности задания j для генеральной совокупности подобных
заданий? Для этого надо было найти некое свойство, присущее заданию, которое
оказалось бы инвариантным относительно уровня подготовленности группы
испытуемых. Таким свойством, как выяснилось, обладают так называемые
характеристические кривые тестовых заданий, и теста в целом. В качестве меры
работоспособности задания, т.е., способности дифференцировать студентов по
уровню их подготовленности автор стал рассматривать параметр крутизны кривой.
Таким образом, каждому заданию теста в LTT ему удалось поставить в соответствие
два параметра - трудности и крутизны геометрического образа каждого задания[8].
Позже стала очевидной неточность
названия Latent Trait Theory,
где утверждается специфическая направленность данной теории на измерение именно
латентных качеств. Однако это неверно. На самом деле все, без исключения,
теории педагогических измерений направлены на оценку истинных компонентов
измерений латентных качеств, явно не наблюдаемых. И все теории так же исходят
из аксиомы устойчивого существования истинных компонентов измерения. В силу
приведенных аргументов название Latent Trait Theory нельзя признать правильным.
Item Response Theory. Вероятно поэтому в последние
годы стали применять второе название Latent Trait Theory – Item Response Theory (IRT). В
своё время модели этой теории я, как и большинство авторов на Западе, модели IRT
назвал современными[9].
В последовавших затем у нас публикациях современные модели превратились в
«современную теорию», что сразу же высветило два существенных недостатка
подобной трансформации. Во-первых, выходило, что пользователи теории IRT-
современные авторы, в то время как опирающиеся на другие теории - не
современные авторы. Между тем, два сравнительно новых варианта классической
теории измерения - Strong True Score Theory и Random Sampling Theory, а также Theory of Generalizability[10], не менее современны, чем IRT.
Во-вторых, в фокусе изучения IRT находятся, строго говоря,
не тесты, как системы заданий, а отдельные задания. Вот почему это, скорее, не
современная теория тестов, а математическая теория оценки качества тестовых
заданий.
Не случайно главным в IRT
являются утверждение о зависимости вероятности правильного ответа испытуемого
от уровня подготовленности испытуемого и от параметров задания. Эту зависимость
удобнее представлять в виде логистической функции. Числу рассматриваемых
параметров ставится в соответствие модели измерения. Модель измерения
определяется как структурное построение, позволяющее соединить так называемые
латентные переменные с одним или с большим числом эмпирически наблюдаемых
переменных[11].
Датский
математик G.Rasch рассматривал матрицу тестовых данных как результат сопряжения
множества испытуемых с множеством заданий. Он попытался формализовать идею
зависимости результатов этого сопряжения от соотношения уровня подготовленности
каждого испытуемого с мерой трудности каждого задания. Позже, в 1976 г., эта
идея была развита им в виде так называемого фрейма взаимодействия двух множеств[12].
Ф = P
(O, A)
где Ф - фрейм сопряжения
(взаимодействия);
О - множество заданий;
A - множество испытуемых;
Р - исход, результаты
взаимодействия множеств О и А.
К 1958 году у
G.Rasch возникла идея выразить вероятность правильного ответа на задание j
посредством так называемой логистической функции вида
=
exp( - )
/ (1 + exp( - )
где = 1, если ответ любого испытуемого (i) на j-ое задание
правильный;
- уровень знаний, латентная переменная;
j - уровень трудности j-го задания теста, измеряемой
на латентном континууме.
Соответственно, вероятность
неправильного ответа на задание j, обозначаемая () равная, как принято в теории вероятностей, 1 - P,
выразилась так:
где взаимодействие и представлено не мультипликативно, а аддитивно[13], что является позитивным элементом этой модели измерения. Элементарные преобразования формулы
посредством приведения разности к общему знаменателю 1+exp ( - позволяют выразить ее в более удобном виде.
= 1/1+exp (- )
Симметрично,
возникла и модель, описывающая вероятность правильного ответа студентов с
уровнем знаний на
задания различного уровня трудности.
= exp(-
) / 1 + exp(-
)
Значения и
могут
быть аппроксимированы из матрицы эмпирических данных.
Модели G.Rasch,
A.Birnbaum, и F.M.Lord имеют много общего с математической точки зрения, однако
они различаются концептуально[14]. Различны они и по генезису.
F.M.Lord, его предшественники M.W.Richardson и D.N. Lawly начинали с поисков
математической модели репрезентации эмпирических данных. Подход же G.Rasch был
априорным, теоретическим, направленным на создание математической модели
измерения и получения такой единицы педагогического измерения, с помощью которой
можно было бы, на одной шкале, сравнить уровень знаний студента с уровнем
трудности задания.
Практические
преимущества этого достижения в области педагогических измерений последних лет
трудно переоценить. Первое преимущество вытекает из стандартизованного
характера полученной единицы измерения. Как и всякая стандартная единица, она
представляет собой результат преобразования исходных данных, что дает
возможность объективно сравнить достижения разных студентов, по разным учебным
дисциплинам. Второе преимущество вытекает из специфических особенностей модели
G.Rasch. Получаемые с ее помощью оценки знаний, в силу относительной независимости
от конкретного подбора того или иного задания, приобретают характер достаточно
объективированных результатов, что также положительно отражается на качестве
оценок, используемых в педагогическом контроле. Третье преимущество связано с
возможностями получения интервальной шкалы. Недавние исследования G.Karabatsos
подтвердили преимущество моделей G.Rasch для построения интервальной
шкалы тестовых баллов испытуемых, по сравнению с 2-х и 3-х параметрическими
моделями[15].
Четвертым преимуществом рассматриваемой модели является сравнительная
устойчивость рассчитываемых значений уровня знаний и трудности задания. Это
позволяет утверждать: однопараметрические модели удачно оценивают интересующие
качества личности, недоступные непосредственному измерению.
Тем не менее,
неоднократно возникали попытки улучшения моделей G.Rasch за счет введения второго
(после )
параметра. Этот параметр дает информацию о задании j с точки зрения крутизны
его характеристической кривой. Обозначив его буквой ,
выражение можно теперь представить в виде двухпараметрической модели
=
exp ( - )
/ (1 + exp( - )
Добавление
третьего параметра , ассоциируемого с вероятностью угадывания правильного ответа
в заданиях с выбором одного правильного ответа дает трехпараметрическую модель.
=
+ (1-
) exp
(
-
)
/ (1 + exp
(
-
)
Даже отлично
знающие студенты, имеющие самые высокие значения ,
могут иногда терпеть неудачу и получить нуль по причинам, отнюдь не связанным
со знанием предмета, а с какими-то другими факторами, которые иногда трудно
определить. На этот и другие случаи труднообъяснимых причин рассчитана
малоизвестная четырехпараметрическая модель измерения латентных качеств
личности. Эта модель представляет интерес не столько практический, сколько
теоретический
= =
+ (
-
) exp
(
-
)
/ (1 + exp
(
-
)
где принимает значения
больше единицы.
В IRT ставится
важный исследовательский вопрос - как соотносятся между собой эмпирически
наблюдаемые результаты испытуемого () с соответствующими значениями того же испытуемого на
латентной переменной ? F.M.Lord сделал вывод, что линия регрессии тестового балла
на латентную переменную имеет, в общем случае, вид логистической функции,
откуда можно понять, что тестовый и истинный баллы связаны нелинейно[16]. Всё отмеченное позволяет
предложить новый вариант перевода названия IRT на русский язык как математической
теории тестовых заданий. Что близко к смыслу названия в английском языке.
Классическая теория тестов. Начало этой теории положил Ch. Spearmen
в 1904 году. Существенный вклад в её развитие внес H. Gulliksen. Эти и многие другие авторы
предполагали наличие истинного компонента измерения, в каждом результате. Они
же заложили основы аксиоматики психолого-педагогических измерений.
В настоящее время можно
выделить по меньшей мере семь основных аксиом:[17]
1.
Устойчивого существования интересующего качества, признака, свойства,
характеристики личности.
2. Возможности представления
интересующего качества как непрерывно измеряемой величины.
3. О существовании истинного
значения интересующего качества у каждого испытуемого. Измеряемая величина
предполагается варьирующей на множестве испытуемых.
4. О неизбежной погрешности
измерения, в соответствии с которым измеряемое значение (X) не равно истинному (T): X предполагается отягощенным некоторой погрешностью.
Таким образом,
XT
Xi = Ti + Ei
где Ei
- некоторая случайная ошибка измерения, состоящая из суммы возможных ошибок
различного происхождения, значения и знака.
В
реальном процессе педагогического измерения каждый испытуемый имеет свои
значения Хi,
Тi,
и Еi.
Значения Хi
рассматриваются как функция от истинного уровня подготовленности (Тi)[18] и от значений ошибок измерения
(Ei).
Каждый из компонентов последнего равенства варьирует на множестве испытуемых.
5. Аксиома о случайных погрешностях измерений,
распределяемых по так называемому в статистике нормальному закону.
6. Аксиома некоррелируемости
истинных и ошибочных компонентов измерений. Из четвертой и шестой аксиом
вытекает седьмая аксиома.
7. Дисперсия тестовых баллов
принимается состоящей из двух компонентов: .
Почленное деление последнего
выражения на даёт
1 = +
Перенесем влево; получим 1 - = . Концептуально надежность тестовых результатов равна правой части данного равенства; операционально же это понятие выражается левой частью:
rtx = 1 -
Последняя
формула в западной литературе названа классической, вероятно, ввиду её концептуальной
простоты и широкой применимости в разработке тестов.
Классификация теорий
Латентные качества изучаются не одной, а всеми научные
теориями педагогического измерения. Такая позиция позволяет выработать
интегрированную и сбалансированную позицию по отношению к положительным
сторонам и реальным возможностям каждой теории. Периодически появляющиеся
теории обычно не отвергают, а дополняют одна другую; они различаются не по
признаку «современности», а по этапам их применения, по лексике, моделям и
методам измерения, а также по прогнозируемости индивидуальных результатов и
релевантности поставленным целям.
Например, в начале 30-х годов классик Чикагской
психометрической школы L.L.Thurstone подчеркивал важность
индекса надежности результатов измерения (rxt). Этот индекс является
мерой связи наблюдаемых значений каждого варианта теста с истинными
компонентами измерений[19]. Если взять за основу
классификации, например, философские понятия общего, особенного и единичного, то можно предложить
такую классификацию теорий:
Общая теория
педагогических измерений. Контуры общей теории педагогических измерений
удачно просматривались в работах R.Ebel[20] и других
педагогов-тестологов. Последовавшее затем увлечение большинства американских
авторов математической стороной проблемы измерения отвлекло их от построения
целостной общей педагогической теории измерения. Главный предмет такой теории -
разработка и применение заданий в тестовой форме, тестовых заданий и тестов для
активизации учебного процесса, научной организации тестовой формы самоконтроля
в процессе самообразования.
Настоящее тестирование
начинается, развивается и прекращается вместе с учебным процессом. Отстраненное
от такого процесса тестирование неизбежно становится объектом бюрократических
искажений, несовместимых с тестовой культурой.
Другие предметы общей теории
- разработка целей и задач педагогических измерений; создание программ
проведения массового тестирования, их положительных и отрицательных последствий
на личность, общество и государство. К сугубо научным вопросам общей теории
можно отнести анализ понятий, положенных в основу измерений; содержание заданий
и теста в целом; разработка педагогических критериев эффективности и качества
проводимых измерений. Попытки разработки общей теории педагогических измерений
представлены в ряде публикаций[21].
Частные педагогические
теории. С
общей теорией соотносятся частные теории. В качестве одной из таковых могла бы
стать логико-педагогическая теория композиции заданий в тестовой
форме. Учитывая непосредственную зависимость качества любого теста от
правильной композиции содержания и формы каждого отдельного задания, вряд ли
можно признать конструктивными известные попытки недооценки в потребности
такого рода теории. Ведь каждое нарушение формы, содержания, того и другого –
источники погрешностей измерения. Прообразы такой теории можно обнаружить в
работах многих авторов второго поколения западных тестологов и в публикациях на
русском языке[22].
Предмет теории – разработка принципов композиции заданий в тестовой форме,
позволяющих творчески соединять содержание каждого задания с подходящей для
него формой.
Общие математические теории
педагогического измерения. К числу таких теорий надо отнести известную на Западе, но
неисследованную в России Random Sampling Theory. Известные варианты
классической теории тестов полезно рассматривать в связке с положениями Random Sampling Theory, учитывая их общую опору на
статистические теории индуктивного вывода. Более общей является другая теория, Theory of Generalizability (Dependability)[23]так же не исследованная у
нас. Это самые общие теории, сосредоточившие в себе мощный статистический
аппарат исследования точности результатов измерения, возможности использования
дисперсионных комплексов для оценки достоверности влияния различных источников
погрешностей при измерении латентых
качеств.
Специальные математические теории педагогического измерения.
К ним можно отнести частную математико-педагогическую теорию тестовых
заданий, в которую целесообразно включить часть положений классической теории тестов, известной на
Западе под названием «Item Analysis», а также постулаты, модели
и вычислительные методы IRT. Только взятые вместе они
позволяют проводить тщательный анализ эффективности каждого задания с
последующим решением о включения их в тест, в банк заданий, или об исключении
из разработки[24].
По сравнению с общими теориями, предмет исследования IRT является теорией меньшего
уровня общности.
Основное средство
педагогического измерения латентных качеств. Наиболее подходящим для измерения латентных
качеств является тест. Самый удивительный факт - в западной и российской
литературе уделяется мало внимания определению теста. Педагогический тест -
система заданий возрастающей
трудности, специфической формы, позволяющая эффективно измерить уровень и
оценить структуру результатов подготовленности испытуемых. Это
определение гомогенного теста, т.е.
измеряющего только одно интересующее качество. Из данного
определения вытекает, что тест, как система, обладает целостностью, эффективностью (включающей в
себя критерии качества результатов измерений), составом и структурой.
Особого
пристального внимания заслуживает анализ такой «новации», неизвестной в
педагогической науке, как т.н. контрольно-измерительные материалы (КИМы). О
сущности этих «нововведений» я писал
немало[25], но сейчас сложилась
практика, в которой критерии оценки и перевода баллов из одной
некачественной шкалы в другую, довольно
спорную и непонятную массам, шкалу Центра тестирования, переводятся распоряжениями Минобразования РФ[26].
Данный
факт лишний раз убеждает, что это министерство обременено избыточными,
несвойственными ему функциями научного руководства т.н. «экспериментом по ЕГЭ»
и по «созданию КИМов[27]».
Возникла
необходимость нового истолкования сущности теста. Во-первых, надо уходить от
преднамеренного, полагаю, и конъюнктурного пересечения тестовой лексики с традиционной педагогической
лексикой экзаменов и вопросов. Во-вторых, в определении теста на русском языке
надо специально подчеркивать, что тест не только метод, но и результаты
измерения. Только тогда мы избавимся от устаревшей лексики «надежность и
валидность теста». А также и от таких ошибочных утверждений, как «надежность и
валидность т.н. «КИМов» и «педагогических тестовых материалов»,
которые, по мнению самих же их создателей, не являются, «пока», ни тестами, ни
каким-либо другим научно признанным методом. Отсюда и фактическая секретность
подлинных данных ЕГЭ – верный признак движения государства к закрытости.
Свойства
метода могут переноситься на свойства результатов, а могут, в силу множества
источников погрешностей, и не переноситься. К этому необходимо добавить ещё один элемент:
педагогический тест – это метод, результаты, и интерпретация результатов.
Такое
истолкование сути теста позволяет по-новому взглянуть на перспективы развития тестовой
культуры, особенно в связи с попытками создания так называемых
«критериально-ориентированных тестов». На самом деле вопрос лучше ставить не о
«тестах», а об интерпретации данных
тестирования в зависимости от того или иного критерия. Тест может быть
один, а интерпретации результатов – разные.
[2]Понятия «качество», «свойство», «признак» удобно рассматривать как обобщенный аналог английского понятия trait.
[3] Клайн Б.Л. В поисках физики и квантовая теория / Пер.
с англ. М.: Атомиздат, 1971. - 286с.
[4] Суворов Л.Н. Материалистическая диалектика.- М.: Мысль,
1980.- 264с.
[5] Lord F.M. Lord
F.M.,Novick M. Statistical Theories of Mental Test Scores. Addison-Wesley Publ.
Co. 1968,
[6]Об этом процессе подробнее см., например, на стр. 87-105 книги: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука , 1982.- 199с.
[7] Теория измерения латентных качеств.
[8] Lawley D.N. On
Problems Connected with Item Selection and Test Construction // Proceedings of
the Royal Society of
[9] Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. Центр, 1989. –167с.
[10] Точного перевода названий этих теорий на русский язык пока нет.
[11] Bollen K.A.
Structural Equations with Latent Variables. N-Y, Wiley & Sons, 1989.- 514p.
[12] Rasch, G. On Specific Objectivity:
An Attempt ofFormalizing the Request for Generality and Validity of Scientific
Statements / Danish Yearbook of Philosophy. 1977, v. 14, p. 58 - 94,
Munksgaard,
[13] Rasch,G. On General Laws and the
Meaning of Measurement in Psychology /In Proceedings of the Fourth
[14] McArthur D.L. Educational
Assessment: A Brief History /McArthur D.L. (Ed). Alternative Approaches to the
Assessment of Achievement. Kluver Academic Publishers,
[15] Karabatsos G. Axiomatic measurement
theory as a basis for model selection in item response theory. Paper presented
at 32nd annual conference of the Society for Mathematical
Psychology,
[16] 307. Lord F.M. Application of Item
Response Theory to Practical Testing Problems. Hillsdale N - J. Lawrence
Erlbaum Ass., Publ. 1980, - 266 pp.
[17] Переработано по книге Gulliksen H. Theory of Mental Tests. N - Y. Wiley. 1950 - 486 p и книги Аванесова В.С. «Научные проблемы тестового контроля знаний». М.: Иссл. Центр, 1994. – 135с.
[18] В Latent Trait Theory (IRT) вместо Тi чаще других используется символ θi.
[19]Thurstone L.L. The Reliability and
Validity of Tests 1932. Ann Arbour,
21. Ebel, R. Measuring Educational Achievement.
Prentice Hall, Inc.
[21]Аванесов В.С. Форма тестовых заданий // Труды иссл. центра. М. 1991.-33с.
Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. центр, 1989. –167с.
Аванесов В.С. Методологические и теоретические основы тестового контроля". Дисс… докт. пед. наук. СПб госуниверситет, 1994.-339с.;
[22]Аванесов В.С. Теоретические основы разработки заданий в тестовой форме. Пособие для профессорско-преподавательского состава высшей школы. М.: МГТА, 1995.-95с.
Аванесов В.С. Композиция тестовых заданий. 1,2 и 3 изд.; 3 изд. М.: Центр тестирования 2002г. – 217с.
[23] Перевода названий этих теорий на русский язык пока нет.
[24] Именно так построена 11 глава книги автора
«Композиция тестовых заданий». 3 изд. М.: Центр тестирования 2002г. – -239с. Идейным толчком к
возникновению такой композиции моей книги послужила работа Tatsuoka, K.K. Item construction and psychometric models appropriate for constructed response. Prinston, N-J,
1993. -56 pp;
[25]Напр.,
«И не тест, и не экзамен...».
Ж. «Университет и школа» №1-2, 2002.с. 26-27
[26] Например, распоряжения №№748-13 от 11.06.03; №779-13 от 19.06.03; №817-13 от 20.06.03 и десятки, если не сотни других подобных документов.
[27] Появились, наконец, первые публикации о КИМах,
открывающие возможность начала нормальной дискуссии. Например, в сборнике
«Единый Государственный экзамен. Научные основы, методология и практика
организации эксперимента»: Под ред В.А.Болотова – (М.Логос. - 2002, 208 стр).
одни авторы называют ЕГЭ и КИМы тестами; другие заявляют, что «говорить о ЕГЭ,
как тесте, основываясь на результатах первого года эксперимента, конечно, рано»
(с.34); третьи полагают, что «контрольные материалы для единого экзамена не
сводятся к тестам в узком смысле слова». (стр. 14).
Привлекает внимание работа А.О.Татура:
«Контрольно-измерительные материалы для единого государственного экзамена \\
Высшее образование сегодня». №7-8 с.28-33, 2002. Автор даёт такое определение
(с.28):. «КИМы – это стандартизованная экзаменационная работа, создаваемая в
соответствии с требованиями теории педагогических измерений, позволяющая с
достаточной объективностью и надежностью провести независимую государственную аттестацию выпускников образовательных учреждений и
отбор абитуриентов вузов». Из чего видно,
что: 1) КИМЫ – это не тесты, а экзаменационная работа; 2) И что это
экзаменационная работа, «позволяющая с достаточной объективностью и надежностью
провести независимую государственную аттестацию
выпускников образовательных учреждений и отбор абитуриентов вузов».
Оставим в стороне
ставшие ритуальными упоминания об «объективности и надежности». Потому что даже
сильно препарированные результаты подготовленного для узкого круга лиц сборника
«Статистика основных результатов единого государственного экзамена в 2003 году»
свидетельствуют о прямо противоположном – об отсутствии какой-либо надежности и
объективности. А значит, и о непригодности этих КИМов для озвученных
целей. Интереснее другое: в статье КИМы
считаются инструментом «независимой государственный оценки»; -
независимой, вероятно, ни от общества; ни от граждан страны!
Любопытна заключительная фраза этой статьи:
«Дальнейшее развитие теории и практики создания и использования КИМов позволит
нашей системе образования в полном
объеме освоить достижения в области педагогических
измерений». Из чего можно понять, что вслед за ЕГЭведением надо ожидать возникновения ещё одной
псевдонауки – т.н. КИМологии. Тогда естественно поставить вопрос – где данные,
свидетельствующие о том, что КИМы - это научно обоснованные методы, и что
огромные расходы на них, оторванные, кстати, от скудных образовательных
бюджетов страны и регионов, оправданы? Ведь все матрицы исходных результатов в
Центре тестирования МО РФ по-прежнему недоступны для независимой экспертизы,
что противоречит Закону.
Принципиальная
невозможность попыток создать один «КИМ» для выпускников и абитуриентов мною
уже отмечалась (Аванесов В.С. Понятийный аппарат педагогической тестологии
//Педагогическая диагностика №2, 2002г.;стр. 35-37) а также: Аванесов В.С.
«Основные инструменты коррупции в образовании»//Материалы научно-практической
конференции «Социология коррупции» (М.:ИНИОН РАН, 20 марта 2003г., стр.
201-205) и в статье «Нелегитимный эксперимент в образовании: Ещё раз о
недостатках Единого государственного экзамена» (Независимая газета 10 июня
2003г.). Чем это не материал для научной дискуссии?