ЯЗЫК ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ

Вадим Аванесов

Аннотация

В фокусе статьи - проблема становления русского языка педагогических измерений. Наибольший вклад в становление языка этой науки внесли статистическая, математическая и педагогическая теории. Статистическая и математическая теории развивались преимущественно в США, педагогическая – в США и в России.

Даны краткие определения основных понятий педагогической теории.

Ключевые слова: язык, педагогические измерения, тест, тестовое задание, задание в тестовой форме.

Проблемная ситуация

«…словесный мир лишь в ничтожной мере дает правдивую картину мира реального, а в общем и целом словесный мир искажает (фальсифицирует) мир реальный, причем – делает это не по невежеству, а по каким-то более серьезным причинам[1].

Каждая наука стремится иметь свой собственный язык, позволяющий корректно характеризовать и исследовать интересующие объекты. Педагогические измерения в этом процессе не являются исключением. Это сравнительно молодая наука, возникшая в самом начале XX века на стыке педагогики, психологии, математики, статистики, логики и философии.

Хотя становлению языка педагогических измерений уделялось внимание в каждом номере журнала ПИ, эту работу нельзя сейчас считать ни успешной, ни завершённой. Тем более, что ситуация с формированием языка теории педагогических измерений в последнее время стала ухудшаться. Это происходит из-за того, что в России лексика педагогических измерения стала часто подменяться лексикой оценок, экзаменов и т.н. контрольно-измерительных материалов (КИМов) ЕГЭ. Вследствие чего стали распространяться несуразные выражения типа «тесты ЕГЭ», «АПИМЫ» «педагогические измерения посредством тестов КИМов ЕГЭ». Хотя наши читатели понимают, что всё перечисленное - это совсем не тесты, ни тестовые задания, ни задания в тестовой форме и ни педагогические измерения, а только их видимость[2]. Но как убедить в этом остальных, если пресса и руководители много лет пишут и говорят о «тестах» ЕГЭ?

Относительно экзаменов тоже было много раз сказано и написано, что экзамены – нетехнологичная форма оценки знаний, имеющая древнюю историю, превышающую четыре тысячи лет[3]. В наше время массовое педагогическое измерение посредством экзаменов невозможно и бессмысленно. Для получения качественных измерений целесообразно использовать тестовый процесс.

Использование КИМов ЕГЭ привело российское образование к тупику и к новому витку роста коррупции. В итоге Россия оказалась уже на 143 месте по уровню некоррупционности[4]. По данным ООН, в России ежегодная общая сумма взяток за поступление в ВУЗы составляет 520 миллионов долларов[5]. Введение ЕГЭ породило новые формы коррупции, теперь уже вокруг него самого.

Корни неадекватного словоупотребления приходится искать в выступлениях руководителей образовательного ведомства страны[6], а также в явном несоответствии названия и реальной продукции Федерального института педагогических измерений (ФИПИ). Этот институт должен был заниматься подлинными педагогическими измерениями, но со дня своего основания он фактически производил только КИМы ЕГЭ, не отвечающие элементарным требованиям качества и этического кодекса педагогических измерений[7].

В 2009 году в Министерстве образования и науки отказались, наконец, от идеи оценить единым КИМом ЕГЭ выпускников школ и абитуриентов вузов[8]. Сделано это было своеобразно, посредством приказа №362, вокруг которого возник спор, дошедший до Верховного Суда РФ. Этим приказом все КИМы для ЕГЭ 2009 г. разделили на две группы. Первую группу, с лёгкими заданиями, нацелили для аттестации выпускников школ. В неё вошли только КИМы по русскому языку и по математике. Вторую группу КИМов подготовили для приёмных экзаменов в вузы.

Это позволило избавиться, наконец, от главной причины производства некачественных КИМов ЕГЭ. Прежние годы делали единый КИМ для выпускников школ и абитуриентов всех вузов для ЕГЭ. Но это идея была ошибочная с точки зрения аксиом педагогических измерений, о чём автор этой статьи писал с самого начала затеи ЕГЭ[9] и затем в течение всех восьми лет т.н. «эксперимента по введению ЕГЭ в штатный режим». Наконец, поняли. Вследствие чего из аббревиатуры ЕГЭ теперь фактически выпала первая буква. Хотя номинально название «ЕГЭ» продолжает использоваться, в 2009 году от прежнего названия ЕГЭ в реальности остались теперь только две последние буквы.

Но в этом своём новом варианте государственный экзамен стал разрушать теперь систему аттестации выпускников школ, в которой все выпускные экзамены сократились до двух. Кто сдаёт КИМ по русскому языку и математике, тот по воле Министерства образования и науки считается аттестованным и по всем остальным предметам за время обучения в школе.

Если это решение сохранится хотя бы ещё один год, то общее среднее образование по остальным школьным предметам станет разрушаться ещё быстрее, чем это было прежде. Потому что многие учащиеся изучают только то, что проверяется. Что не проверяется, изучается слабо, да и немногими, лишь наиболее сознательными[10].

В нарушение этики[11] педагогического контроля критериальные значения баллов определяются теперь не до проведения аттестационного ЕГЭ, а после. Это должна делать ещё одна комиссия Рособрнадзора. Именно там посмотрят на распределения результатов, и только затем решат, кого считать аттестованным, а кого – не аттестованным. Это существенный признак стагнации системы аттестации.

Случились ещё два события. 15 мая 2009 года, объединёнными усилиями Минобрнауки, Верховного Суда РФ, Минюста и Генпрокуратуры удалось отстоять ранее упомянутый приказ №362 Министерства образования и науки о проведении ЕГЭ[12] в 2009 г. от исков родителей тех детей, которые не хотели или не могли сдавать аттестационный ЕГЭ. Кроме того, Левада-центр опубликовал новые данные опроса, в котором оказалось, что большинство населения страны вообще выступает против проведения ЕГЭ[13].

Итак, проблемная ситуация такова: есть общемировой процесс развития теории, практики и, соответственно, языка педагогических измерений, но появился и специфический язык проведения КИМов ЕГЭ, получающий официальное распространение только в России. Эти два языка различны и, более того, интерферентны. Кроме этого, сейчас научный аппарат педагогических измерений несёт на себе весь груз прошлого неупорядоченного словоупотребления, который копился в течение века. Каждый автор приходил в педагогические измерения с языком той науки, которая была ему ближе.

Такая ситуация стала сильно затруднять научную коммуникацию и понимание сути педагогических измерений. Особенно мешает неразбериха и подмены тестов КИМами, экзаменами, оцениванием и т.п., и всё это вместо действительных педагогических измерений. Стало очевидным, что без чётких разграничений понятий - экзамены, тестирование и педагогические измерения и многих других - движение вперёд станет невозможно. Отсюда следует актуальность данной статьи.

Сложившаяся проблемная ситуация указывает на недостаточность проделанной работы. Одновременно это может служить и свидетельством трудности самой проблемы данной статьи - становления подлинного языка педагогических измерений.

Методы оценивания и педагогических измерений

Надо заметить, что оценивание и педагогические измерения - разные методы. В России подготовлен очень дорогостоящий проект т.н. оценивания всех обучающихся страны (ОСОКО). Там проявляет себя и своеобразный язык КИМов ЕГЭ. В противовес этому проекту автор статьи предлагает создать в стране ничего не стоящую бюджету систему педагогических измерений [14].

Оценивание представляет собой общее название всех известных методов оценки знаний посредством словесных эквивалентов (отлично, хорошо и т.д.) и (или) соответствующими числовыми оценками. Примерный аналог этого понятия в английском языке – «evaluation», в то время как измерения имеет другой английский эквивалент - «measurement».

Идеального метода для использования в системах оценивания и измерений уровня подготовленности выпускников школ и абитуриентов вузов различной профессиональной направленности нет. Автор этой статьи неоднократно отмечал, что в массовом процессе аттестация выпускников школ – это преимущественно вопрос оценки достигнутого учащимися образовательного минимума, в то время как вопрос приёма в вузы – это совсем другая проблема, профессионального отбора, требующая тестов с высокой различающей способностью, на отдельных интервалах континуума подготовленности. Качество отбора зависти от квоты приёма, от качества тестов и избранной модели.

Соответственно, с точки зрения теории педагогических измерений и теории профессионального отбора качественная и социально ответственная работа по приёму в вузы требует принципиального иного подхода. Одним набором заданий эти две разные задачи не решаются. Это мнение автора данной статьи все годы «эксперимента» с КИМами упорно не замечалось, не обсуждалось и, соответственно, не принималось к практическому использованию.

На сегодняшний день сложились три основных метода, используемых в национальных и международных системах оценивания и педагогического измерения уровня подготовленности учащихся и студентов.

Первый, самый распространенный – это метод тестирования. Он применяется в США, странах Европы, в Казахстане и странах Юго-Восточной Азии. Актуальность тестового метода объясняется некоторыми его преимуществами перед другими методами. Кратко напомним о пяти основных преимуществах:

1. Высокая научная обоснованность настоящего теста;

2. Технологичность тестовых методов;

3. Объективно фиксируемая и открыто проверяемая точность измерений;

4. Одинаковость правил измерения и адекватной интерпретации тестовых результатов;

5. Сочетаемость тестовой технологии с другими современными образовательными технологиями.

Но тестовый метод имеет и отрицательные последствия - в смысле развития речи учащихся и студентов, отрицательного влияния на содержание учебного процесса. Он также имеет социально-психологические издержки, особенно в случаях, если тестовая оценка становится решающей для формирования жизненной и профессиональной траектории развития молодёжи[15]. Поэтому применение тестов должно обязательно сопровождаться применением и других методов, компенсирующих недостатки тестов.

Второй метод – традиционные экзамены, где иногда используются задачи повышенной трудности. Они применяются в большей или меньшей степени в программах международного исследования PISA, в России, на Тайване[16] и других стран Юго-Восточной Азии. Преимущества этого метода - положительное влияние на развитие речи учащихся, возможности индивидуализации контроля, углубленной проверки знаний по избранным темам. Лучше обеспечивается также связь между содержанием обучения и содержанием экзамена. Но для массового процесса измерения уровня подготовленности в генеральной совокупности испытуемых эти методы не годятся.

Третий метод – т.н. контрольно–измерительные материалы (КИМы). Применяются исключительно в рамках проведения российского ЕГЭ. Качество этих материалов является главной тайной министерства образования и науки РФ. Однако по имеющимся данным, их качество ниже допустимого уровня. Возможно, что именно этим объясняется отсутствие внятных публикаций о качестве КИМов ЕГЭ. Тайной являются и реальные цели, поставленные перед КИМами ЕГЭ. Они оказалось непонятным даже известному приглашённому международному эксперту[17] по вопросам тестирования.

Подлинные цели ЕГЭ Б.Виноградов усматривает в соединении с ваучерами ГИФО. Это создание механизмов перехода государственных вузов в образовательные бизнес-центры. Уже в 2001 году были выбраны экспериментальные регионы, определена шкала стоимости ГИФО в зависимости от оценок по ЕГЭ[18]. Но затем что-то сорвалось. Можно предположить, что этот план ваучеризации образования рухнул из-за некачественных КИМов ЕГЭ. Об этом автор писал в уже упомянутой выше статье «Единый государственный экзамен в фокусе научного исследования[19].

Использование КИМов ЕГЭ вместо тестирования и методов педагогических измерений есть прямой путь в образовательный тупик и к новому витку роста коррупции в сфере образования. Качество образования ухудшается зримо и во множестве регионов. По данным ООН, в России ежегодная общая сумма взяток за поступление в вузы составляет 520 миллионов долларов[20], по уровню некоррупционности Россия уже оказалась на 143 месте[21]. Введение ЕГЭ породило новые витки коррупции, теперь уже вокруг него самого.

Постановка проблемы

…..Вещи, качество, события вообще воспринимаются так, как они называются. Сепир Э. Избранные труды по языкознанию и культурологии.- М.: Прогресс. 1993. с.227.

Для научного понимания феномена педагогических измерений надо, как говоря словами А.А.Зиновьев, осуществить логическую обработку языка. Причем эта обработка должна охватить не отдельно взятые понятия, а весь их комплекс. Результатом ее должна явиться не сумма разрозненных фрагментов, а целостная теория (система, концепция), построенная в соответствии с правилами логики и методологии науки.

Ситуация с языком науки становится сложной в период, когда её статус не определён должным образом. Тогда в этой науке начинается употребление языков нескольких наук. В педагогических измерениях раннего периода вначале использовались язык статистики и математики. О том, что мы имеем дело именно с математико-статистическими теориями, было чётко сказано в классической работе[22] конца шестидесятых годов прошлого века.

Принято полагать, что начало научному этапу становления педагогических измерений дал Чарльз Спирман[23]. Хотя он занимал должность профессора психологии, язык и методы этого автора были преимущественно статистическими. Не случайно и созданная им теория позже стала называться статистической теорией педагогических и психологических измерений. Позже многие авторы называли её также классической теорией. В историю науки эта теория так и вошла с двумя именами. Один из смыслов второго названия теории заключался в том, что статистика – это и есть настоящий (классический) язык психолого-педагогических измерений.

Однако последующее развитие науки показало, что смысл названия «классическая теория» оказался гипертрофированным. Спустя полвека, в середине XX века появилась другая, Item Response Theory, не менее классическая теория, и более продвинутая в научном отношении. А потому сейчас самое подходящее время называть теорию, начало которой положили Ч. Спирман, Г. Галиксен[24] и тысячи других авторов именно статистической теорией педагогических измерений.

До построения целостной и развитой теории педагогических измерений дело может дойти не скоро, особенно если принять во внимание синтетический характер знаний этой области. В силу ряда причин в России долгое время не было условий для становления языка педагогических измерений. Нужных условий нет, правда, и сейчас. Это одна из причин, почему ошибочная лексика продолжает порождать ошибочную практику.

Например, при обсуждении поправок в ст. 15 Закона РФ «Об образовании», в части, касающейся введения ЕГЭ, надо было искать подходящее определение ЕГЭ и КИМов. В итоге там написали: "Единый государственный экзамен представляет собой форму независимой оценки уровня учебных достижений обучающихся с использованием заданий стандартизированной формы (контрольные измерительные материалы), выполнение которых позволяет установить уровень учебных достижений обучающихся по освоению федерального компонента государственного образовательного стандарта среднего (полного) общего образования". Получилось совсем не подходящее, слишком короткое, общее и неточное определение.

Опираясь на реалии, понятие «КИМы ЕГЭ» можно определить иначе: это подготовленные государственными органами задания с нарушениями требований логики и тестовой формы, для получения независимых от общества и системы образования оценок сомнительного качества, с засекреченными результатами. В результате некомпетентной работы законодателей Россия погрузилась в пучину министерского языка, принятого в КИМах ЕГЭ.

Ещё один пример некачественных определений даёт нам зарубежная практика тестирования. Из США к нам пришла традиция называть «тестами» любые задания с выбором одного правильного ответа, а то и просто любые наборы вопросов. В российских образовательных учреждениях эта традиция имеет, похоже, ещё большую распространённость, хотя уже многие знают, что тест - это не отдельное задание, а система заданий возрастающей трудности, представленных в одной из четырёх тестовых форм. Знают, но ничего поделать не могут. Слишком сильна привычка называть тестами любой набор задач, вопросов, или упражнений, подготовленный для контроля знаний студентов или школьников.

Обыденный смысл слова test охватывает любой метод проверки, научный, так и не научный. Научное мышление рассматривает тест не как элементарный перевод общего смысла иностранного слова, а как научно-обоснованный метод, как результат, полученный данным методом, а также как следствие умелой интерпретации результатов. Разъяснения автора данной статьи о том, что тест содержит не вопросы или задачи, а кратковременные и технологичные задания, сформулированные как предложения в повествовательной форме, при ответе на которые получаются высказывания, истинные или ложные, в массовом и чиновном сознании не принимаются во внимание заметным образом.

Проблему осложняет положение самой теории педагогических измерений. Все известные в этой теории методы обоснования качества тестовых результатов неизменно оказывались статистическими и математическими. Так сложилось исторически, таким был идеал научности тестовых результатов. Однако попытки построения собственно педагогической теории педагогических измерений, других идеалов научности не прекращались ни в прошлом, ни в наше время. Известны попытки создания педагогической теории педагогических измерений в США[25].

Для решения проблемы становления приемлемого языка педагогических измерений требуется анализ причин неудовлетворительного состояния этого языка, проведение терминологической работы и создание первых языковых систем.

В России проблемой создания педагогической теории педагогических измерений занимался автор этой статьи. Идея необходимости перехода от тестирования к системе педагогических измерений возникла как результат сравнительного исследования вопросов методологии педагогических измерений и тестирования[26], научного анализа практики централизованного тестирования[27], введения российского Единого государственного экзамена (ЕГЭ)[28] и личного опыта взаимодействия с практиками–работниками центров тестирования. Последние чаще вынуждены выполнять указания сверху, нежели рекомендации учёных.

В наше время существенный признак педагогических измерений – это педагогически обоснованный отбор содержания теста, точный подбор формы заданий, для того или иного содержания, система основных педагогических понятий этой теории[29], получение данных об испытуемых и заданиях на интервальной шкале натуральных логарифмов. Последнее достигается использованием соответствующих алгоритмов трансформации исходных результатов практического тестирования посредством компьютерных программ типа RUMM 2020, Winsteps и др.

Многолетнее отставание педагогических измерений от потребностей практики тестирования и фактическое отсутствие учёных в штате большинства центров тестирования на пространстве СНГ превращает практику тестирования в зону постоянного риска получения ненадёжных и невалидных - практически непригодных для обозначенных целей - результатов. Этот вывод легко подтверждается независимой экспертизой работы любого центра тестирования. Вывести тестирование из зоны перманентного риска получения ошибочных оценок личности может только стабильная опора на научные педагогические измерения.

Службы ETS в США и Европе являются исключением, подтверждающими общее состояние тестирования, существующего вне необходимого им научного обеспечения. В странах бывшего СССР все центры тестирования созданы на небольших бюджетах образовательных ведомств, а потому они обречены, можно сказать, на производство некачественных оценок, если они не получат статус независимых центров педагогических измерений, имеющих научную опору среди профессорско-преподавательского состава вузов.

Причины отсутствия общепринятого языка

педагогических измерений

Можно выделить четыре причины отсутствия требуемого языка педагогических измерений.

Первая причина - это недостаточная исследованность вопроса сущности самой науки о педагогических измерениях. Для начала можно отметить, что эта наука синтетична. Синтетичность здесь понимается в смысле необходимости синтеза научных достижений и лексики ряда наук. В педагогических измерениях сейчас фактически используется несколько языков – педагогики, статистики, математики и, кроме того, в заметно меньшей мере, языки психологии, психометрики, педагогической технологии, информатики и других наук. Свойство синтетичности объективно мешает формированию общего[30] языка педагогических измерений.

Педагогические измерения имеют одновременно свойства как фундаментальной, так и прикладной науки. Например, физические измерения основаны на фундаментальных понятиях пространства, времени, массы, на физических законах и свойствах физических тел, на соотношениях изучаемых параметров, а также на свойствах чисел и аксиомах собственно физической теории измерений. Педагогические измерения тоже опираются на педагогические концепции, понятия, свойства, индикаторы интересующего свойства, на свойства чисел и аксиомы.

Это несомненные признаки фундаментальности, присущие любому измерению. Но одновременно педагогические измерения призваны разрабатывать методы измерения, используемые в педагогической практике. А это можно отнести к приложениям педагогической науки. Хотя сама российская педагогика данное приложение не рассматривала своей частью. В тридцатые годы XX века в СССР педагогические и психологические измерения назывались буржуазной тестологией.

Вторая причина отсутствия общепринятого языка педагогических измерений – это задержка с развитием собственно педагогической теории измерений. Целый век использовалась статистическая теория, а последние полвека - математическая теория (Item Response Theory, IRT). Они и представляли язык педагогических измерений. Разработки автора по педагогической теории педагогических измерений во многом не принимались во внимание. Это явление скорее типичное, чем нетипичное, очень знакомое в истории российской науки и практики.

Третья причина отсутствия общего языка – чисто российская. Именно в России возник и крепнет, пока что, официально принятый язык т.н. контрольных измерительных материалов (КИМов) единого государственного экзамена (ЕГЭ), измерительный статус которых научно не определён и не подтверждён каким-либо удовлетворительным образом. Напротив, появились первые данные, свидетельствующие, что КИМы ЕГЭ вообще не являются методом педагогических измерений[31].

Четвёртая причина отсутствия общего и устойчивого языка педагогических измерений заключается в том, что с течением времени начинают различать явления, которые ранее не различались[32].

С научно-исторической точки зрения, ни КИМы ЕГЭ, ни исходные результаты даже настоящего тестирования не могут рассматриваться как педагогические измерения. Они оказываются всего лишь первым этапом сбора данных для последующего логарифмического шкалирования для получения трансформированных баллов на интервальной шкале. Можно сказать так. Тестирование – это только начало педагогического измерения, или иначе, это незаконченное педагогическое измерение. В новейшей литературе только шкалированные результаты тестирования признаются полноценными педагогическими измерениями.

Первая дискуссия по проблеме языка

«..Коль скоро недочёт в понятиях случится,

Их можно словом заменить.

Словами диспуты ведутся,

Из слов системы создаются;

Словам должны вы доверять:

В словах нельзя ни йоты изменять.

Гёте. Фауст

Как следует из публикации Федерального института педагогических измерений (ФИПИ) по вопросам ЕГЭ[33], в самом начале там возникли противоречия по вопросу соотношения лексики КИМов ЕГЭ и тестов. Одни сотрудники и авторы, вслед за руководителями министерства образования и Рособрнадзора, называли КИМы ЕГЭ тестами. Другие считали, что «говорить о ЕГЭ, как тесте, основываясь на результатах первого года эксперимента, конечно, рано» (с.34). Вероятно, надеялись на лучшее будущее. Третьи полагали, что «контрольные материалы для единого экзамена не сводятся к тестам в узком смысле слова» (стр. 14).

Особое внимание привлекло тогда такое вот определение: «КИМы – это стандартизованная экзаменационная работа, создаваемая в соответствии с требованиями теории педагогических измерений, позволяющая с достаточной объективностью и надежностью провести независимую государственную аттестацию выпускников образовательных учреждений и отбор абитуриентов вузов»[34].

Откуда видно, что КИМЫ ЕГЭ считаются не тестами, а экзаменационной работой, которую якобы можно создать в гармонии с требованиями педагогических измерений. В этом определении критерии качества тестовых результатов оказались безосновательно и произвольно перенесёнными на оценку качества экзаменационных работ. Как будто такое возможно. Это была надежда на светлое будущее КИМов. В отчётах ФИПИ 2007 и 2008 гг. скороговорка на половину страницы и непонятно откуда взявшиеся цифры на этот сюжет есть. При отсутствии надлежащего обоснования эти цифры воспринимаются похожими на вымысел.

К такому не вдохновляющему выводу подводят гистограммы распределения исходных результатов по КИМам ЕГЭ. Все доступные гистограммы оказались искусственно сжатыми по краям исходной шкалы, чтобы не были видны зияющие «успехи», а точнее, дефекты данного этапа сбора результатов КИМов ЕГЭ, повсеместно представляемые как результаты разработки «тестов ЕГЭ». Впрочем, терминологические подмены такого рода - явление исторически не новое[35]. И только совсем недавно со стороны нового руководства Рособрнадзора последовало отрезвляющее пояснение, что тестирование и ЕГЭ не следует рассматривать как синонимы[36].

Основные дотеоретические понятия

Вопрос о дотеоретических понятиях имеет свою историю. Это понятия, возникшие в естественном языке много лет назад, когда ещё не было заметных следов теоретической работы.

Экзамены сложились в период, превышающий четыре тысячи лет[37]. Особенно важно проводить экзамены там, где нужно проверить качество речи учащихся. В наше время формированию речи учащихся в большинстве образовательных учреждений уделяют заметно меньше внимания, а потому это качество стало сильно ухудшаться. С точки зрения массового процесса педагогических измерений экзамены стали формой нетехнологичной, субъективной и экономически неэффективной.

Задание. Под этим именем можно представить многие педагогические формы, используемые для упражнений учащихся, проверки и самопроверки уровня их подготовленности. В результате теоретического анализа было определено, что задание – это педагогическая форма, нацеленная на проверку усвоения учащимся изучавшихся тем и разделов курса. Каждое задание имеет как бы свою миссию, создаётся для определенной цели и имеет свои характеристики. Главная миссия заданий - побуждение учащихся к активной самообразовательной деятельности, к развитию учащихся и овладению необходимыми знаниями, умениями и навыками до требуемого уровня компетенции[38].

Педагогические задания выполняют как обучающие, так и контролирующие функции. Обучающие задания применяют учащиеся для активизации собственного учения, усвоения учебного материала, саморазвития, а также применяют педагоги для обучения учащихся. Все это свидетельствует об обучающем потенциале заданий. Невнимание к обучающим возможностям заданий в тестовой форме стало одной из причин отставания российского образования от положения дел с этим в других странах[39].

Контроль. Это слово можно рассматривать синонимом другого слова – проверка, которую можно определить как педагогическую деятельность, позволяющую определить уровень учебных достижений. Контроль может быть субъективным или объективным.

Это понятие автор данной статьи использовал исключительно в момент, когда не было возможностей рациональнопродуктивно писать и говорить о тестах[40]. Соответственно, в название диссертации автора на соискание учёной степени доктора педагогических наук пришлось включать слово «контроль», вместо «педагогических измерений» или «тестирования». Но тогда это был вынужденный шаг. Сейчас стало немного легче писать о педагогических измерениях.

Педагогический контроль. Данное словосочетание содержит в себе элементы дотеоретического и теоретического знания, поскольку позволяет отчленить традиционные формы контроля от современных технологических форм. Сейчас основным предметом педагогического контроля рассматривается преимущественно подготовленность, включающая в себя знания, умения, навыки и компетенции.

Попытка перейти от донаучных форм контроля к научным была предпринята автором этой статьи в пособии для слушателей учебного центра[41]. В этом пособии было отмечено, что в педагогических измерениях пробивает дорогу традиция, давно утвердившаяся в психологическом тестировании. Это формулирование тестовых заданий не в виде традиционных задач, вопросов, указаний, требований, а виде утверждений в повествовательной форме предложения, которые затем превращаются в высказывания, истинные или ложные.

Оценивание. В зарубежной педагогической литературе широко используется понятие "evaluation", что можно перевести как "оценивание", имея в виду не только конечный результат, но и процесс формирования оценки. Соответственно выделяются два основных вида оценивания - формирующее и итоговое[42]. Цель первого - оказывать, посредством оценивания, формирующее влияние на текущий процесс обучения, в смысле его улучшения, за счет установления обратной связи от студента к преподавателю. Цель второго - получить итоговые результаты обучения.

Оценки нередко путаются с отметками. Последние являются численными представителями оценочных суждений. Они вошли в жизнь в советский период, директивным путем - Постановлением Совета Народных Комиссаров РСФСР от 10 января 1944 года. Постановление было принято, как писалось, "в целях более четкой и точной оценки успеваемости" и замены "словесной системы" оценки успеваемости - отлично, хорошо, посредственно, плохо и очень плохо - цифровой пятибалльной системой отметок 5, 4, 3, 2, 1. Этим постановлением предписывалось ввести цифровую систему отметок со следующего дня - 11 января 1944 г. - от момента публикации[43].

Три источника и три составные части теории педагогических измерений

Язык педагогических измерений формируют три основные теории – это статистическая, математическая и собственно педагогическая теории педагогических измерений. С публикации проекта педагогической теории педагогических измерений берёт начало линия на развитие нашего журнала[44]. Вряд ли можно утверждать, что какая то одна теория лучше двух других. Ни одна из этих теорий не отменяет и не заменяет другие. Все они нужны, применяются в меру их потенциальных возможностей.

Статистическая (классическая) теория позволяет дать оценку заданиям и тесту в целом, провести предварительную оценку надёжности и валидности тестовых результатов. Затем появилась математическая теория педагогических и психологических измерений (Item Response Theory) [45]. Последнюю в России и других странах нередко называют современной, но такое название ряд авторов считают неоправданным, и с этим надо согласиться. Математическая теория педагогических измерений нацелена на углубленный анализ характеристик каждого отдельного задания, формирования их в оптимальную систему измерения, с требуемыми характеристиками качества результатов.

Педагогическая теория требуется для оценки качества содержания, формы и педагогического понятийного аппарата педагогических измерений.

Краткий анализ каждой из теорий даётся ниже. Но прежде обратимся к языку практики.

Язык практики педагогических измерений

Основным предметом практики педагогических измерений являются создание теста , проведения тестирования и шкалирования тестовых результатов.

Тестирование - это практическая деятельность, практика применения тестов – педагогических, психологических и др.

Педагогическое тестирование определяется как преимущественно практика применения тестов для оценки уровня и структуры подготовленности.

Система педагогического тестирования – организация сбора и обработки данных посредством применения тестов на множестве испытуемых. Эта система может оказаться научно обоснованной, не обоснованной и даже антинаучной. Научной основой системы тестирования должна стать теория педагогических измерений.

Исходные результаты тестирования уже не рассматриваются как педагогические измерения; это лишь первым этапом сбора данных для последующего логарифмического шкалирования. Можно сказать и так: тестирование – это незаконченное педагогическое измерение. В новейшей литературе только шкалированные результаты тестирования признаются полноценными педагогическими измерениями.

Нынешняя практика тестирования дает немало фактов для разных выводов - как против тестов, так и в их пользу. Голоса "против" звучат иногда громче голосов "за". Важно понять простую истину: сами по себе - тесты полезный метод, но их применение в практике может оказаться как полезным, так и вредным. Многое зависит от цели, качества, соблюдения принципа добровольности, возможности потенциального или реального ущерба личности.

Язык статистической (классической) теории педагогических измерений

Как уже отмечалось, первым языком теории педагогических измерений стал язык статистики, созданный Чарльзом Спирманом. Это язык оказался единым для теории как педагогических, так и психологических измерений. В начале XX века не делали заметных различий между этими двумя направлениями применения статистической теории. Соответственно, такую объединительную линию, ввиду общности статистического языка, много лет проводил и продолжает это делать научный журнал Educational and Psychological Measurement[46].

Самые распространённые статистические характеристики – доля правильных и неправильных ответов, коэффициент корреляции между ответами испытуемых по заданию и исходными тестовыми баллами испытуемых, показатели средней тенденции (средняя арифметическая, мода и медиана), показатели вариации исходных тестовых результатов. При разработке теста вычисляются пять показателей вариации – размах данных, сумма квадратов отклонений от средней арифметической, дисперсия (варианса), стандартное отклонение, коэффициент вариации. Кроме того, для исходных тестовых баллов считается коэффициент асимметрии и мера эксцесса.

После вычисления и анализа данных по этим значениям вычисляют коэффициент надёжности тестовых результатов. Все перечисленные статистики удобно вычислять стандартными статистическими пакетами «Статистика», SPSS и им подобными. Формулы для вычисления статистических характеристик читатель найдёт в статьях нашего журнала, на сайте автора[47], в учебниках по статистике[48]. Ряд статистических вопросов классической теории педагогических измерений связан с вероятным угадыванием правильных ответов.

Вероятность угадывания правильных ответов

С первых дней своего существования статистическая теория педагогических измерений начала уделять внимание феномену возможности угадывания правильных ответов, при применении заданий с выбором одного правильного ответа. Математико-статистическая сторона этого явления уже была рассмотрена в работах авторов журнала[49]. В КИМах ЕГЭ этот вопрос обходят стороной. Хотя угадывание является там особо существенным источником погрешностей измерения – тем большим, чем меньше число предлагаемых ответов в каждом задании с выбором одного правильного ответа.

При выборе из четырёх ответов могут быть угаданы правильные ответы примерно в четвёртой части от общего числа заданий. В итоге испытуемые получают баллы, которые они не заслужили. Это и есть одна из самых распространенных форм искажения результатов за счет формы заданий с выбором одного правильного ответа.

С целью преодоления феномена угадывания в ЕГЭ было принято решение использовать задания открытой формы, где угадывания практически нет. Правильные ответы по таким заданиям там оцениваются в два раза выше; в предположении, что задания открытой формы труднее для испытуемых, чем задания с выбором одного правильного ответа.

Но задания открытой формы для проведения массовых исследований не годятся из-за нетехнологичности. Ведь не случайно настоящие тестовые службы в массовых обследованиях используют только задания с выбором, используя далее автоматизированную считку результатов с бланков посредством оптических сканеров очень высокой производительности, от 5 до 50 тысяч бланков в час. Хороший пример успешного применения такой техники даёт тестовая служба Республики Казахстан. Там результаты тестирования по всей республике становятся известными испытуемым в тот же день.

Трудность заданий зависит, главным образом, не от формы, а от содержания заданий! Не случайно даже в ЕГЭ ряд заданий с выбором одного правильного ответа оказывается труднее ряда заданий открытой формы. На этот очевидный результат ошибочного волевого «шкалирования» оценок за выполнения заданий разной формы в Кимах ЕГЭ не обращается внимания. Здесь скрываются и другие источники ошибок измерения, вызванные неверным толкованием тестовых форм и их возможностей, субъективным приписыванием весовых коэффициентов заданиям открытой формы, ошибками сложения баллов, не обладающих свойством, допускающим такое сложение, и прочими несуразностями в работе с КИМами ЕГЭ.

Применение языка статистики для анализа КИМов ЕГЭ

Центральной моделью статистической теории педагогических измерений обычно является т.н. нормальное распределение результатов. Существует много причин, по которым методы для массового оценивания ориентируются именно на это распределение. Отклонение от модели вызывает обоснованные подозрения в некачественности данных.

Феномен угадывания заметно отклоняет результаты от нормального распределения, что даёт основания усомниться в качестве результатов. Тот же эффект наблюдается при списывании. Этот вывод подтверждается доступными данными по КИМам ЕГЭ. Посмотрим пример распределения исходных баллов по восьми КИМам[50], представленных в табл. 1. Кроме угадывания, на отклонение от нормальности распределения влияет также преимущественное предпочтение или иначе, ориентирование КИМов ЕГЭ на аттестацию выпускников или на приём в вузы.

Таблица1: Распределение участников ЕГЭ в Вологодской области по диапазону тестовых баллов в 2007 году.

№ п/п	Общеобразовательный предмет	Диапазоны тестовых баллов
		0-10		11-20		21-30		31-40		41-50		51-60		61-70		71-80		81-90		91-100
		чел.	%	чел.	%	чел.	%	Чел.	%	чел.	%	чел.	%	чел.	%	чел.	%	чел.	%	чел.	%
1	Русский язык	1	0,0	16	0,2	242	2,7	869	9,8	2133	24,0	2974	33,5	1771	19,9	681	7,7	159	1,8	39	0,4
2	Математика	18	0,2	247	2,8	814	9,3	1037	11,9	2212	25,3	1907	21,8	1637	18,7	718	8,2	146	1,7	7	0,1
3	Физика	0	0,0	9	0,5	75	4,5	242	14,6	501	30,1	421	25,3	286	17,2	102	6,1	22	1,3	4	0,2
4	Химия	0	0,0	1	0,3	24	7,3	50	15,2	67	20,4	82	24,9	63	19,1	26	7,9	14	4,3	2	0,6
5	Биология	1	0,1	6	0,4	100	6,4	290	18,5	418	26,7	364	23,2	225	14,4	96	6,1	50	3,2	17	1,1
6	История России	1	0,1	1	0,1	32	4,1	110	14,1	152	19,5	177	22,7	182	23,3	81	10,4	31	4,0	14	1,8
7	Обществознание	0	0,0	3	0,1	78	2,1	433	11,6	1121	30,1	1431	38,4	532	14,3	122	3,3	6	0,2	0	0,0
8	Английский язык	0	0,0	5	1,8	12	4,2	18	6,4	23	8,1	32	11,3	44	15,5	63	22,3	61	21,6	25	8,8
9	Немецкий язык	0	0,0	0	0,0	2	6,7	3	10,0	4	13,3	1	3,3	5	16,7	5	16,7	8	26,7	2	6,7
10	География	0	0,0	0	0,0	1	2,4	10	23,8	9	21,4	12	28,6	6	14,3	2	4,8	1	2,4	1	2,4

На диапазоне до 20 баллов фактически не работают КИМы по физике, химии, биологии, географии и истории России. Единственным исключением из общего ряда является КИМ по математике. Русский язык занимает промежуточное положение. Из этой же таблицы легко видеть, что КИМ по математике ориентирован противоположным образом, преимущественно на приём в вузы. В нём задания оказались труднее, а потому здесь появилось много испытуемых с низкими оценками в левой части шкалы исходных данных. В КИМе по математике лучше дифференцирует испытуемых левая часть шкалы,

Сходная картина наблюдается и в таблице 2, где представлены данные 2008 г. по Вологодской области. Это означает, что концепция КИМов в тот период не менялась.

Таблица 2 (в оригинале 8) . Распределение участников ЕГЭ в Вологодской области по диапазону тестовых баллов в 2008 году[51].

№ п/п	Общеобразовательный предмет	Диапазон тестовых баллов
		0-10		11-20		21-30		31-40		41-50		51-60		61-70		71-80		81-90		91-100
		чел.	%	чел.	%	чел.	%	чел.	%	Чел.	%	Чел.	%	чел.	%	чел.	%	чел.	%	чел.	%
1	Русский язык	0	0,0	0	0,0	9	0,1	169	2,3	839	11,5	2205	30,4	2693	37,1	1152	15,9	181	2,5	17	0,2
2	Математика	86	1,2	650	8,9	831	11,4	1518	20,9	2213	30,4	1236	17,0	543	7,5	175	2,4	21	0,3	3	0,04
3	Физика	0	0,0	1	0,1	8	0,8	109	10,8	256	25,4	340	33,8	215	21,4	58	5,8	17	1,7	2	0,2
4	Химия	0	0,0	0	0,0	5	1,7	28	9,4	33	11,1	67	22,5	67	22,5	66	22,1	28	9,4	4	1,3
5	Биология	0	0,0	0	0,0	3	0,3	112	10,8	256	24,6	273	26,2	239	23,0	136	13,1	22	2,1	0	0,0
6	География	0	0,0	0	0,0	1	1,7	9	15,5	13	22,4	21	36,2	8	13,8	5	8,6	1	1,7	0	0,0
7	История России	0	0,0	0	0,0	24	3,5	114	16,4	146	21,0	156	22,4	141	20,3	101	14,5	12	1,7	1	0,1
8	Обществознание	0	0,0	0	0,0	0	0,0	107	4,0	442	16,3	778	28,7	1069	39,5	306	11,3	5	0,2	0	0,0
9	Английский язык	1	0,4	2	0,8	9	3,6	19	7,6	21	8,4	18	7,2	50	20,0	58	23,2	57	22,8	15	6,0
10	Немецкий язык	0	0,0	1	3,2	1	3,2	2	6,5	5	16,1	10	32,3	5	16,1	2	6,5	5	16,1	0	0,0
11	Французский язык	0	0,0	0	0,0	0	0,0	0	0,0	1	50,0	0	0,0	1	50,0	0	0,0	0	0,0	0	0,0
12	Информатика и ИКТ	0	0,0	0	0,0	1	1,4	3	4,2	10	13,9	14	19,4	30	41,7	11	15,3	1	1,4	2	2,8

Предположение о неработоспособности левой части шкалы подтверждается и таблицей 3, где 37-39 баллов считаются неудовлетворительным уровнем.

Таблица 3 (в оригинале 10) соответствия тестовых баллов ЕГЭ выпускников общеобразовательных учреждений Вологодской области отметкам по пятибалльной шкале в 2008 году[52]

Общеобразовательный предмет

Количество выпускников

Пятибалльная шкала

Средний балл

«2»

«3»

«4»

«5»

Интервал тестовых баллов/процент выпускников, набравших соответствующий тестовый балл/ количество выпускников, набравших соответствующий тестовый балл

Русский язык

6005

0-39

1,1

40-57

28,7

1721

58-71

53,2

3195

72-100

17,1

1025

62,5

Математика

6338

0-5

9,1

575

6-12

38,0

2411

13-18

42,3

2679

19-30

10,6

673

44,2

Физика

905

0-37

2,8

38-52

36,5

330

53-67

48,3

437

68-100

12,5

113

55,8

Химия

261

0-35

1,9

36-55

26,8

56-72

39,8

104

73-100

31,4

63,7

Биология

827

0-34

1,1

35-54

38,2

316

55-71

45,8

379

72-100

14,9

123

58,1

География

0-34

2,3

35-50

25,6

51-66

53,5

67-100

18,6

56,0

История России

542

0-32

2,0

33-49

26,9

146

50-67

46,5

252

68-100

24,5

133

57,7

Обществознание

2332

0-38

1,3

39-54

23,8

556

55-66

45,7

1065

67-100

29,2

681

60,5

Английский язык

222

0-30

3,2

31-58

20,3

59-83

54,5

121

84-100

22,1

68,8

Немецкий язык

0-30

7,4

31-58

44,4

59-83

40,7

84-100

7,4

57,3

Французский язык

0-30

0,0

31-58

50,0

59-83

50,0

84-100

0,0

55,5

Информатика и ИКТ

0-38

4,3

39-56

26,1

57-72

53,6

73-100

15,9

62,4

О том же свидетельствует и средний балл результатов (табл. 3). Неработоспособность левой части шкалы может быть следствием двух, по меньшей мере, причин: это либо результат заметного облегчения заданий, либо допускались нарушения процесса проведения ЕГЭ.

О несправедливости оценок испытуемых, получаемых по ЕГЭ, свидетельствует данные отчёта по Кемеровской области за 2007г. В табл. 4 (в оригинале табл. 1) представлены проценты выполняемости каждого варианта КИМа ЕГЭ по физике[53].

Решаемость заданий ЕГЭ по физике в 2007 году по вариантам (1 волна).

Задания группы « A, B»

Номер варианта	A1	A2	A3	A4	A5	A6	A7
1	79,71%	60,87%	43,48%	55,07%	72,46%	81,16%	40,58%
2	52,17%	53,62%	60,87%	62,32%	65,22%	78,26%	30,43%
3	70,67%	58,67%	49,33%	50,67%	69,33%	68,00%	32,00%
4	72,22%	52,78%	48,61%	66,67%	66,67%	37,50%	58,33%
5	45,83%	47,22%	58,33%	40,28%	54,17%	38,89%	83,33%
6	55,41%	20,27%	55,41%	89,19%	83,78%	27,03%	66,22%
7	50,00%	25,00%	56,94%	84,72%	86,11%	69,44%	76,39%
8	76,81%	56,52%	47,83%	50,72%	69,57%	78,26%	34,78%
9	58,57%	47,14%	38,57%	72,86%	68,57%	71,43%	41,43%
10	77,46%	50,70%	56,34%	67,61%	64,79%	73,24%	43,66%
11	72,06%	66,18%	64,71%	94,12%	82,35%	48,53%	75,00%
12	54,55%	36,36%	57,58%	86,36%	59,09%	34,85%	71,21%
13	54,69%	32,81%	65,63%	50,00%	84,38%	54,69%	60,94%
14	50,00%	51,52%	71,21%	89,39%	83,33%	56,06%	86,36%
15	В69,49%	22,03%	64,41%	81,36%	69,49%	32,20%	74,58%
Среднее	62,64%	45,66%	55,69%	69,21%	71,91%	56,85%	58,01%

Продолжение таблицы 4

Номер варианта	A8	A9	A10	A11	A12	A13	A14	A15
1	23,19%	31,88%	34,78%	60,87%	50,72%	56,52%	34,78%	44,93%
2	24,64%	37,68%	39,13%	59,42%	59,42%	63,77%	50,72%	17,39%
3	42,67%	36,00%	37,33%	45,33%	56,00%	69,33%	48,00%	14,67%
4	36,11%	16,67%	34,72%	41,67%	63,89%	79,17%	47,22%	19,44%
5	45,83%	11,11%	31,94%	48,61%	37,50%	58,33%	70,83%	40,28%
6	32,43%	54,05%	56,76%	18,92%	29,73%	64,86%	41,89%	18,92%
7	62,50%	12,50%	43,06%	50,00%	38,89%	63,89%	29,17%	27,78%
8	33,33%	36,23%	56,52%	52,17%	63,77%	62,32%	33,33%	15,94%
9	45,71%	35,71%	57,14%	50,00%	62,86%	70,00%	52,86%	57,14%
10	43,66%	47,89%	46,48%	69,01%	61,97%	66,20%	32,39%	23,94%
11	63,24%	22,06%	51,47%	29,41%	42,65%	83,82%	63,24%	29,41%
12	51,52%	13,64%	65,15%	48,48%	78,79%	68,18%	42,42%	19,70%
13	50,00%	57,81%	43,75%	57,81%	26,56%	62,50%	34,38%	32,81%
14	36,36%	25,76%	53,03%	53,03%	42,42%	71,21%	56,06%	43,94%
15	62,71%	15,25%	55,93%	57,63%	28,81%	86,44%	55,93%	37,29%
Среднее	43,34%	30,41%	46,91%	49,23%	49,81%	68,24%	46,14%	29,34%

Анализ таблицы позволяет утверждать, что в этом КИМе нет ничего похожего на тест как систему заданий возрастающей трудности. Здесь недопустимо большая вариация заданий по трудности, между вариантами одного и того же номера КИМа. Из-за чего ЕГЭ превратился не в средство педагогического измерения, а в лотерею. Уже по одной этой причине единый экзамен, как государственный, не имеет права на применение, поскольку этим некачественным экзаменом нарушается право каждого испытуемого на объективную и справедливую оценку уровня его подготовленности.

В нарушение законов РФ весь основной массив результатов за годы применения КИМов ЕГЭ оказался засекреченным для независимых экспертов и общественности. Фактор тайны консервировал их некачественность все восемь лет своеобразного «эксперимента», что и сделало их окончательно непригодными для работы в «штатном режиме» в 2009 г. В итоге к 2009 году пришлось срочно менять содержание КИМов, в связи с их раздвоением для аттестации и для приёма в вузы, предусмотренным спорным приказом №362.

Рис.1. Результаты по физике в ЕГЭ по баллам в Кемеровской обл. (2 волна

Примерно такие же выводы позволяет сделать анализ гистограмм. Статистически достоверен коэффициент асимметрии результатов КИМа ЕГЭ по физике 2007 г.[54] нарис.1. Этот КИМ был нацелен на приём в вузы, или на учащихся с более высокой подготовкой, из-за чего он некачественно оценивал знания испытуемых 2 волны ЕГЭ. Но, одновременно, он имеет зримый дефект несостоятельности шкалы исходных баллов при оценке знаний учащихся с отличной подготовкой по физике. Если бы шкала не была сжата, то это дефект стал бы более зримым.

Например, на искусственно сжатой по краям гистограмме результатов по русскому языку осмысленность шкалы исходных результатов видна, начиная только с уровня 17 баллов[55].

На некоторых гистограммах границы угадывания находятся ещё выше.

В КИМах по математике, напротив, непрогнозируемым образом ведут себя баллы на правой части шкалы, что видно после уровня 76 баллов. Именно после этого уровня видна несостоятельность шкалы исходных баллов. Можно предположить, что это свойство КИМа ЕГЭ во многом порождается субъективными оценками комиссий, создаваемых для оценки ответов испытуемых по части «С» КИМа ЕГЭ. По данным гистограммы легко видеть высокую потенциальную погрешность оценивания у наиболее подготовленных испытуемых. Что согласуется с ранее опубликованными данными[56], в которых стандартная ошибка измерения превышала допустимые значения.

Фактически нацелен на приём в вузы оказался КИМ по физике, представленный на рис. 3.

Рис. 3. Распределение результатов ЕГЭ - 2007 год по баллам в Кемеровской области (2 волна)

Здесь оказалась недостаточной различающая способность для слабо подготовленных аттестуемых, но вполне впечатляющая различающая способность КИМА для средне подготовленных абитуриентов вуза.

Основные критерии

оценки результатов педагогических измерений

К настоящему времени исследованы четыре основных критерия качества и эффективности педагогических измерений.

Надёжность. Это был первый критерий, предложенный основателем статистической теории педагогических и психологических измерений Ч. Спирманом. Идея надёжности берёт начало в идее точности измерения. Зная погрешность, легко корректировать меру точности результатов. Существует множество коэффициентов надёжности тестовых результатов. В упомянутых ранее стандартных пакетах есть ключевая опция - расчёт коэффициента надёжности измерения альфа.

Язык и методы обоснования надёжности на русском языке представлены в ряде работ автора[57].

Валидность (от англ. слова valid - действительный, пригодный, действенный) - один из основных критериев качества педагогических измерений. Обсуждение вопроса валидности предполагает поиск ответов на три, по меньшей мере, вопроса.

Первый - валидность чего? Раньше считалось – теста. В последние годы валидность стала соотноситься с тестовыми результатами. Валидность результатов - это характеристика их возможности измерять именно интересующее свойство, и никакое другое.

Второй вопрос – от чего зависит валидность тестовых результатов. От цели разработки и применения теста, от содержания и формы тестовых заданий, от качества теста, условий проведения измерений и от интерпретации результатов. Валидность результатов зависит также от подбора контингента испытуемых, от их физического и психического состояния, и от других условий.

Третий вопрос – о критериях оценки валидности результатов педагогических измерений. Используются формальный (правильность формы), содержательный, концептуальный и статистический критерий критерии.

В отечественной и западной тестовой литературе много пишется не только о валидности тестов, но и, ошибочно, о валидности отдельных заданий. Научные разработки последних лет позволяют подойти по-новому и к этому вопросу, а именно: вместо валидности оперировать другим понятием - эффективность заданий. Естественным следствием такого подхода является обогащение определения теста: в этом случае тест становится не просто системой заданий, а система эффективных заданий. Понятно, что система неэффективных заданий порождает неэффективный тест, а в некотором пределе – совсем не тест[58].

Объективность педагогических измерений – это такое отражение интересующего свойства личности на числовой шкале, которое адекватно действительному распределению испытуемых по латентному свойству. Можно сказать, что объективность является самым важным и, вместе с тем, наименее исследованным критерием качества педагогических измерений. Объективность может возникнуть как результат применения системы методов измерения[59].

Идея объективности результатов педагогических измерений была осознана вместе с возникновением первых тестов. По мнению J.Mac Keen Cattell, тест – это средство для получения объективных оценок интересующего свойства личности. Для организации тестирования он считал необходимым создание условий, приближенных к эксперименту. Требуются одинаковость инструкций, равное время на выполнение заданий каждому участнику тестового процесса, добровольность участия испытуемых в тестировании, статистическая обработка данных, ограничение времени тестирования - не более одного часа[60]. Подробнее о критерии объективности – в статье автора[61].

Эффективность педагогических измерений – сравнительно новый критерий оценки теста и тестовых заданий. Проблема эффективности педагогических тестов является частью общей проблемы эффективности форм и методов педагогической деятельности. Естественно поставить вопрос - почему тестирование относятся к эффективной форме организации контроля знаний, а сам тест считается эффективным и объективным методом диагностики уровня и структуры знаний? Краткий ответ на этот вопрос заключается в том, что настоящий тест экономичен, потому что не требует тех больших затрат живого труда преподавателей, которые сейчас имеют место[62].

Язык математической теории педагогических измерений

Item Response Theory (IRT)

В России название IRT переводили такими словами, как «теория латентных черт», «теория характеристических кривых заданий», «теория моделирования и параметризации педагогических тестов», «современная» теория тестов и т.д. Столь заметные различия в переводах одного только названия IRT уже само по себе являются свидетельством неблагополучия в понимании её сути. Не лучшим образом обстояло дело с переводом на русский язык исходных понятий и положений IRT. Проблема с русским названием IRT заключалась в том, что английское название этой теории не точное, не полное, отчасти устаревшее и метафоричное. А потому прямо не переводимое, в принципе.

IRT определяется как математическая теория педагогических измерений (МТПИ), основным предметом которой является анализ формальных, математико-статистических свойств отдельных заданий и теста в целом[63].

В своё время модели этой теории, как и большинство авторов на Западе, модели IRT назывались современными[64]. В последовавших затем у нас публикациях других российских авторов современные модели превратились в «современную теорию», что сразу же высветило два существенных недостатка такого толкования. Выходило, что пользователи теории IRT- современные авторы, в то время как опирающиеся на другие теории - не современные. Между тем, два сравнительно новых варианта классической теории измерения - Random Sampling Theory, а также Theory of Generalizability[65] существенно не менее современны, чем IRT.

В главном фокусе изучения IRT находятся, строго говоря, отдельные задания, изучаемые посредством математических моделей, хотя и разработке теста уделено большое внимание. Модель измерения определяется как структурное построение, позволяющее соединить так называемые латентные переменные с одним или с большим числом эмпирически наблюдаемых переменных[66].

Основной язык математической теории педагогических измерений рассмотрен автором в двух статьях[67]. Важно отметить, что вопросами определения педагогических понятий теории измерений, содержания педагогических тестов и формы тестовых заданий IRT (МТПИ) не занимается. Этим занимается педагогическая теория измерений (ПТИ).

Язык педагогической теории измерений (ПТИ): основные понятия.

Примерно до середины 50-х годов XX века наука о разработке тестов называлась преимущественно «Теорией тестов»[68]. И лишь с начала XXI века в качестве научной основы педагогических измерений повсеместно утвердился термин «Теория педагогических измерений»[69]. Так сложилось исторически, таким был идеал научности тестовых результатов. Однако попытки построения собственно педагогической теории педагогических измерений, других идеалов научности не прекращались ни в прошлом, ни в наше время. Известны попытки создания педагогической теории педагогических измерений в США[70].

В России проблемой создания педагогической теории педагогических измерений занимался автор данной работы. Идея необходимости перехода от тестирования к системе педагогических измерений возникла как результат сравнительного исследования вопросов методологии педагогических измерений и тестирования[71], научного анализа практики централизованного тестирования[72], негативного опыта введения российского Единого государственного экзамена (ЕГЭ)[73] и личного опыта взаимодействия с практиками–работниками центров тестирования.

В качестве педагогической основы теории педагогических измерений могут служить:

Система основных понятий педагогических измерений[74]. В данную систему включены понятия:

Задание в тестовой форме

Тестовые задания

Педагогический тест

Испытуемые

Тестовый процесс

Содержание теста.

Все эти понятия определены в работах автора[75].

Ещё два понятия ПТИ стали предметом специального анализа в двух книгах автора этой статьи.

Форма тестовых заданий определялась как способ связи, упорядочения элементов задания. Содержание теста существует, сохраняется и передается в одной из четырех основных форм заданий. Вне тестовых форм ни тест, ни его содержание не существуют. По форме все известные в теории и практике тестовые задания можно разделить на четыре основные группы. Вот их точные названия: задания с выбором одного или нескольких правильных ответов, задания открытой формы, задания на установление соответствия и задания на установление правильной последовательности. Тысячи примеров заданий различных форм, по многим, если не всем учебным дисциплинам читатель найдёт в книге автора[76]. У книги по форме было немало подражателей, но чего-то нового с точки зрения теории у них не было замечено, кроме искажений авторской концепции формы.

Композиция тестовых заданий [77] - это название другой книги, посвящённой вопросам творческого соединения формы и содержания. Композицию не случайно считают уделом сосредоточения многих проблем, связанных с замыслом и исполнением, содержанием и формой. Хорошо сделанное задание - это всегда лучшее, на текущий момент, содержание и наилучшая форма; то и другое - результат, появляющийся вследствие осознания важности их взаимосвязи. Разработка теста начинается с композиции заданий в тестовой форме.

Кроме перечисленных основных понятий, основу ПТИ могут составить:

- концепция пяти этапов тестового педагогического процесса[78];

- формулировки целей педагогических измерений[79];

результаты исследования содержания[80], форм[81] и принципов композиции тестовых заданий[82];

- математические модели[83] и аксиоматика теории педагогических измерений[84].

Ключевое место в первом номере журнала ПИ 2004г. заняла авторская концепция трёх главных понятий – задания в тестовой форме, тестового задания и педагогического теста[85], как системы заданий возрастающей трудности.

В этих работах были даны определения следующих основных понятий теории педагогических измерений:

- Латентные качества личности. Латентными называются интересующие исследователей положительные и отрицательные качества личности, не поддающиеся непосредственному измерению. Примерами являются «подготовленность студентов», «знание учебной дисциплины», «способность понимать» «интеллектуальное развитие» и многое другое. Попытки измерения подобных качеств[86] на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности. Методом измерения латентных качеств (свойств) личности является тест.

- Педагогическое задание в тестовой форме. Это технологичное средство интеллектуального развития, образования и обучения, способствующее активизации учения, повышению качества знаний, а также повышению эффективности педагогического труда.

Логическое преимущество задания в тестовой форме заключается в возможности его превращения, после ответа студента, в форму истинного или ложного высказывания.

Задания в тестовой форме выгодно отличается свойствами эффективности, краткости, лучшей понимаемости смысла заданий, быстротой ответа учащихся и определения меры трудности каждого задания, технологичности.

Научно-методическая ориентация педагогов на широкое использование обучающего потенциала заданий в тестовой форме в системе e-Learning даёт начало новой образовательной технологии. В этой технологии задания начинают выполнять функцию не только самоконтроля, но и организации образовательной и самообразовательной деятельности, делая это самым технологичным и эффективным образом. С точки зрения теории педагогических измерений[87] главным средством обучения в e-learning могут и должны стать не тесты, а задания в тестовой форме.

Взаимосвязь содержания и формы. При рассмотрении этого общего диалектического принципа применительно к тестам невольно возникает ассоциация с искусством. Настоящее искусство представляет собой, по словам Гегеля, законченное внутри себя соединение содержания с вполне соответствующей ему формой[88]. Точно так же и настоящий педагогический тест можно охарактеризовать как результат взаимовлияния содержания заданий с наиболее подходящей формой. При этом, в отличие от широко распространенного философского истолкования активности содержания и пассивности формы, тестовую форму надо рассматривать, вместе с содержанием, как активную сторону взаимодействия.

Тестовое задание определяется как составная единица теста, отвечающая содержательно-педагогическим требованиям к заданиям в тестовой форме и, кроме того, статистическим требованиям: известной трудности, достаточной вариации тестовых баллов испытуемых по заданию, положительной корреляцией ответов по заданию с исходными тестовыми баллами испытуемых.

Не все задания в тестовой форме могут стать тестовыми заданиями. Это заметно различающиеся понятия. Задания имеют шанс стать тестовыми только после эмпирической проверки меры их трудности и других статистических свойств, на типичных группах испытуемых. Корреляция (r > 0,3) указывает на способность заданий различать хорошо подготовленных учащихся от тех, кто подготовлен плохо.

Чем больше значение коэффициента корреляции, тем выше дифференцирующая способность задания. В последние годы вместо понятия «дифференцирующая способность задания» автор этой статьи чаще применяет понятие «различающая способность задания». Это связано с тем, что слово «дифференцирующая» в зарубежной теории педагогических и психологических измерений используется для нескольких целей.

Для того, чтобы задание можно было включить в тест, его проверяют по множеству и других формальных математико-статистических требований. Это обычно выполняется с помощью статистических пакетов RUMM-2020 и WINSTEPS, которые созданы специально для углубленного анализа формальных свойств тестовых заданий, а также для проведения дуального (conjoint) шкалирования уровней трудности заданий и уровней подготовленности испытуемых.

Именно этот смысл, а не «калибровка», как нередко пишут на русском языке, следует из английского словосочетания test calibration. Свойства тестовых заданий были рассмотрены в статьях и работах автора[89]. Задания в тестовой форме имеют шанс стать тестовыми только после эмпирической проверки их статистических свойств, на типичных группах испытуемых.

- Педагогический тест – система заданий равномерно возрастающей трудности, позволяющая оценить структуру и качественно измерить уровень подготовленности испытуемых. Тесты применяются для объективизации итогового контроля результатов обучения.

При культурном и качественном тестировании каждое задание теста должно обязательно иметь параллельные варианты. Параллельными называются варианты задания, имеющие сходное содержание из одной и той общей дидактической единицы, примерно совпадающие меры трудности и вариации результатов испытуемых.

Авторы очень известной на Западе книги Fundamentals of Item Response Theory[90] пишут, что очень трудно, или даже невозможно, создать параллельные варианты теста, для проверки надёжности тестовых результатов. И действительно, все варианты к каждому заданию, по каждому предмету, должны иметь общее содержание. Они должны иметь хотя бы примерное равенство средних арифметических показателей, а также показателей вариации по каждому заданию. Только тогда обеспечивается справедливость и объективность выставляемых оценок[91] испытуемых.

Создание параллельных вариантов заданий заметно облегчается при овладении методикой композиции фасетных заданий.[92] В рамках одной только математической теории создать тест с качественными фасетными заданиями практически невозможно. Поэтому авторов упомянутой зарубежной книги по математической теории измерений понять можно.

Остаётся напомнить, что фасет – это форма записи возможных параллельных вариантов задания, что является обязательным требованием при разработке теста, имеющего на каждое задание набор параллельных заданий. Все элементы одного фасета априорно считаются одинаково трудными по содержанию, что требует последующего эмпирического подтверждения. Каждому испытуемому компьютерная программа подбирает один вариант из фасета.

[1] Зиновьев А.А. Введение в логическую социологию. Социально-гуманитарные знания, Москва 2000, № 4.

[2] «…организаторы ЕГЭ берут на себя часть ответственности за эту сумятицу, поскольку именно мы запустили в оборот слово «тест» применительно к ЕГЭ. Болотов В.А. ЕГЭ: промежуточные итоги. Вопросы образования, № 2, 2004. С. 155-167.

[3] Аванесов В.С. Из глубины веков. http://testolog.narod.ru

[4] Аванесов В.С. Комплексный подход к противодействию коррупции в образовательной сфере//Государственная политика противодействия коррупции и теневой экономике в России. Материалы научной конференции. М. Центр проблемного анализа и государственно-управленческого проектирования. М.: Научный эксперт, 2007. С. 717-723. http://testolog.narod.ru/Obrazov16.html

[5] Коррупция в сфере образования угрожает будущему молодежи всего мира.

http://www.epochtimes.ru/content/view/10999/2/

[6] См. также подборку противоречивых мнений руководителей образовательного ведомства по вопросу - есть ли в ЕГЭ тесты? - в статье: Аванесов В.С. Единый государственный экзамен в фокусе научного исследования. ПИ, №1. 2006. С.22. http://viperson.ru/wind.php?ID=535347&soch=1

[7] CODE OF FAIR TESTING PRACTICES IN EDUCATION. Prepared by the Joint Committee on Testing Practices. 2004. http://www.apa.org/science/fairtestcode.html

wind.php?ID=544972&soch=1

[9] Вадим Аванесов. Единый государственный экзамен: Это вещь будет посильнее Фауста Гёте. Опубликовано в «Учительской газете» №49, 28 ноября 2000г.

[10] Вадим Аванесов: Приказ N 362 - Ни шагу назад! 18 мая 2009г.

http://viperson.ru/wind.php?ID=561141&soch=1

[11] CODE OF FAIR TESTING PRACTICES IN EDUCATION. Prepared by the Joint Committee on Testing Practices. 2004. http://www.apa.org/science/fairtestcode.html

[12] Вадим Аванесов: Приказ N 362 - Ни шагу назад!

http://viperson.ru/wind.php?ID=561141&soch=1

[13] Левада-центр» опубликовал 19.05.2009 результаты опроса общественного мнения по поводу единого государственного экзамена (ЕГЭ). Соцопрос показал резко отрицательное отношение к ЕГЭ большинства респондентов. 36% россиян категорически против ЕГЭ. Они отзываются о нем резко отрицательно, причем в основном это студенты и люди с высшим образованием. 27% опрошенных - индифферентны как к одному, так и к другому способу проверки знаний. Оказалось, что только 16% россиян отдают предпочтение ЕГЭ по сравнению с обычными экзаменами.

Напомним, что 4 мая (накануне начала досрочной сдачи ЕГЭ) ВЦИОМ «пропиарил» госэкзамен. Социологи ВЦИОМа сообщили, что против него выступают исключительно двоечники, неврастеники и учителя-ретрограды. В то время как «за» ЕГЭ якобы голосовала прогрессивная часть педагогического сообщества и отличники с хорошистами, уверяли социологи ВЦИОМа. http://www.dailyonline.ru/m/4627/

[15] Avanesov, V.S. Consequences of the EGE in RUSSIA. KEDI Journal of Educational Policy. Special Issue: pp. 89-100. Guest Editor - Hoi Suen. V. 3, № 1, 2006. http://testolog.narod.ru

[16] Линь Ю-Сю Образовательная реформа на Тайване: От единого вступительного экзамена к многовариантным формам приёма в вузы// Педагогические Измерения.№1, 2007, С. 71-76.

[17] Баккер С. Экспертное заключение. В сб.: «Оценка образовательных достижений в рамках национальных экзаменов». Материалы и тезисы докладов Межд. конф. 13-15 декабря 2004г. Стр. 258. – М.: Изд-во «Уникум-центр», 2005. – 279с.

[18] Виноградов Б. Единый государственный эксперимент. Власти признают провал ЕГЭ.

http://www.kasparov.ru/material.php?id=4A0AAE22DB28E 14.05.09

[19] Аванесов В.С. Единый государственный экзамен в фокусе научного исследования. ПИ, №1. 2006. С.22. http://viperson.ru/wind.php?ID=535347&soch=1

[20] Коррупция в сфере образования угрожает будущему молодежи всего мира.

http://www.epochtimes.ru/content/view/10999/2/

[21] Аванесов В.С. Комплексный подход к противодействию коррупции в образовательной сфере//Государственная политика противодействия коррупции и теневой экономике в России. Материалы научной конференции. М. Центр проблемного анализа и государственно-управленческого проектирования. М.: Научный эксперт, 2007. С. 717-723. http://testolog.narod.ru/Obrazov16.html

[22] Lord F.M. Lord F.M., Novick M. Statistical Theories of Mental Test Scores. Addison-Wesley Publ. Co. 1968, Reading, Mass. - 560 pp.

[23] Spearman, Ch. The proof and measurement of association between two things. American J. of Psychology.15, 72-101.

[24] Gulliksen H. Theory of Mental Test Scores.. N-Y, 1950.

[25] Например, в работе Ebel, R.L. Measuring Educational Achievement. Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1965. – 481pp.

[26] Аванесов В.С. вопросы методологии педагогических измерений//

Педагогические Измерения, №1, 2005г. С. 3 27. http://testolog.narod.ru/Theory34.html

[27] Аванесов В.С. Централизованное тестирование лучше Единого Государственного Экзамена// «Развитие тестовых технологий в России. Тезисы докладов Всероссийской научно-методической конференции / Под ред. Л.С. Гребнева.- М.:Центр тестирования Министерства образования РФ. 2002. http://testolog.narod.ru

[28] Аванесов В.С. Единый Государственный Экзамен в фокусе научного исследования// Педагогические Измерения, №1, 2006г. С.3-31. http://testolog.narod.ru/Education39.html

[29] Аванесов В.С. Научные проблемы тестового контроля знаний. М.: Иссл. Центр, 1994. – 135с

[30] Здесь лучше было бы написать слово «единого» языка, но после введения в России единого государственного экзамена (ЕГЭ) это слово приобрело негативный смысл редукции процесса педагогических измерений к элементарному подсчёту числа правильных ответов на вопросы, или иначе, к т.н. контрольно–измерительным материалам (КИМам) ЕГЭ. Они, конечно же, надо повторить, не являются педагогическими измерениями.

Аргументация для такого вывода представлена в статье: Аванесов В.С. Являются ли КИМы ЕГЭ педагогическими измерениями? ПИ, №1, 2009г. С. 3-26. Вторая редакция этой статьи, с таблицами и гистограммами, представлена по адресу http://viperson.ru/wind.php?ID=563869&soch=1

[31] Аванесов В.С. Являются ли КИМы ЕГЭ методом педагогических измерений? ПИ, №1, 2009г.

[32] Зиновьев А.А. На пути к сверхобществу. М.: ЗАО Изд-во Центрполиграф, 2000. –638с.

[33] «Единый Государственный экзамен. Научные основы, методология и практика организации эксперимента»: Под ред В.А.Болотова – (М.Логос. - 2002, 208 стр).

[34] Татур А.О. «Контрольно-измерительные материалы для единого государственного экзамена \\ Высшее образование сегодня». №7-8 с.28-33, 2002.

[35] Какая то подделка под науку … присвоила себе название знания и ставила возврату последнего почти неодолимые преграды. .Руссо Ж.-Ж.Сочинения \ Пер с фр. Н.И. Кареев и др. Сост. и ред. Т.Г. Тетенькина. Калининград: Янтарный сказ, 2001.-416с.

[36] Глебова Л.Н. Никакого ЕГЭ в 9 классе нет. http://www.gazeta.ru/education/2009/04/09_n_2972208.shtml

[37] Аванесов В.С. Из глубины веков. http://testolog.narod.ru

[38] Аванесов В. С. Основы педагогической теории измерений // Педагогические Измерения, №1, 2004г. С. 15-21. и другие, в №№ 1-2, 2004г. и в №№ 1-4 2005г.

[39] Аванесов В.С. Основы теории педагогических заданий. ПИ, №№2 - 3, 2006.

[40] Аванесов В.С. Методологические и теоретические основы тестового педагогического контроля. Дисс. …докт. пед. наук. С-П, 1994г. – 339с.

[41] Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М. МИСиС, 1989. – 167с.

[42] Bloom B.S. a .o. Handbook on Formative and Summative Evaluation of Student Learning. N - Y., McGraw-Hill, 1971. - 923 p.

[43] Сборник постановлений РСФСР. М.: 1944, С. 43.

[44] Аванесов В.С. Основы педагогической теории измерений. ПИ, №1, 2004 г. С.15-21.

[45] Аванесов В.С. Там же. См. две статьи автора по IRT в ПИ № 2 и № 3, 2007г. и др.

[46] http://epm.sagepub.com . Позже этот журнал стал публиковать работы и по математической теории измерений, применяемой также с равным успехом к педагогическим и к психологическим измерениям.

[48] Глас Дж. Стэнли Дж. Статистические методы в педагогике и психологии. Пер. с англ. Л.И. Хайрусовой. Общ. Ред. Ю.П.Адлера. М.Прогресс, 1976.-495с. ;

Наследов А.Д. Математические методы психологического исследования. Анализ и интерпретация данных. Изд-во «Речь», 2007.- 392с. .

[49] Ким В.А. Коррекция баллов на угадывание. ПИ, №4, 2006. С.47; Деменчонок О.Г. Влияние угадывания на значение тестового балла: корректировать или устранять? ПИ №1, 2007, С.56; КИМ В.С. Коррекция исходных баллов испытуемых. ПИ, №3,, 2007. С. 37. и др.

[50] Статистические материалы результатов ЕГЭ на этапе государственной (итоговой) аттестации

в Вологодской области в 2008 году http://ege.edu35.ru/static/static.htm

[51] Статистические материалы результатов ЕГЭ на этапе государственной (итоговой) аттестации в Вологодской области в 2008 году.

[52] Таблица составлена на основе распоряжений Федеральной службы по надзору в сфере образования и науки (Рособрнадзор) «Об установлении шкалы перевода баллов единого государственного экзамена в пятибалльную систему оценивания, используемую для выставления отметок в аттестат о среднем (полном) общем образовании в 2008 году»: № 1190-08 от 05.06.2008, № 1228-08 от 10.06.2008, № 1102-08 от 27.05.2008, № 1062-08 от 23.05.2008, № 1136-08 от 30.05.2008, № 1035-08 от 30.05.2008, № 1101-08 от 27.05.2008, № 1100-08 от 27.05.2008, № 1026-08 от 20.05.2008, № 1027-08 от 20.05.2008.

[53] Государственное учреждение «Областной центр мониторинга качества образования». Единый государственный экзамен 2007. Физика. Сборник аналитических материалов. Кемерово 2007.

[54] Источник: Государственное учреждение «Областной центр мониторинга качества образования». Единый государственный экзамен. 2007. Сборник аналитических материалов. Кемерово 2007.

[55] Единый государственный экзамен. Сборник аналитических материалов

Русский язык 2007. Кемерово.

[56] Хлебников В. А. Краткий анализ технологии и результатов Единого государственного экзамена. ПИ, №4, 2008. С. 25-40.

[57] Аванесов В.С. Проблема качества педагогических измерений. ПИ, №2, 2004. С.3-27.

[58] Подробно о валидности на русском языке см. Аванесов В.С. Проблема качества педагогических измерений. ПИ, №2, 2004. С.3-27.

[60] Cattell J. McKeen. Mental Tests and Measurements. – Mind, 1890, v.15, p.373-380.

[61] Аванесов В.С. Проблема объективности педагогических измерений. ПИ, №3, 2008г.

[62] Подробнее об этом критерии см.:

Вадим Аванесов. Проблема эффективности педагогических измерений. ПИ, №4, 2008г. С. 3 -24.

[63] Аванесов В.С. Item Response Theory: основные понятия и положения. ПИ, №2, 2008г.

[64] Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. Центр, 1989. –167с.

[65] Точного перевода названий этих теорий на русский язык пока нет.

[66] Bollen K.A. Structural Equations with Latent Variables. N-Y, Wiley & Sons, 1989.- 514p.

[67] Аванесов В.С. Item Response Theory: основные понятия и положения. ПИ, №№2-3, 2008г

[68] Например, название классического труда того времени Gulliksen, H. “The Theory of Mental Test Scores”. N-Y, Wiley, 1950.

[69] В России автор этого доклада ранее использовал понятие «тестология», теперь применяется только «педагогические измерения».

[70] Например, в работе Ebel, R.L. Measuring Educational Achievement. Prentice-Hall, Inc. Englewood Cliffs, New Jersey, 1965. – 481pp.

[71] Аванесов В.С. вопросы методологии педагогических измерений//

Педагогические Измерения, №1, 2005г. С. 3 27. http://testolog.narod.ru/Theory34.html

[72] Аванесов В.С. Централизованное тестирование лучше Единого Государственного Экзамена// «Развитие тестовых технологий в России. Тезисы докладов Всероссийской научно-методической конференции / Под ред. Л.С. Гребнева.- М.:Центр тестирования Министерства образования РФ. 2002. http://testolog.narod.ru

[73] Аванесов В.С. Единый Государственный Экзамен в фокусе научного исследования//

Педагогические Измерения, №1, 2006г. С.3-31. http://testolog.narod.ru/Education39.html

[74] Аванесов В.С. Определение исходных понятий. 3 редакция, 7 апреля 2007. http://testolog.narod.ru/Theory46.html ; Аванесов В.С. Понятийный аппарат теории педагогических измерений// http://testolog.narod.ru/Theory26.html

[76] Аванесов В.С. Форма тестовых заданий. М.: Центр тестирования, 2005 г.

[77] Аванесов В.С. Композиция тестовых заданий. М.: Центр тестирования, 2003г.;

[78] Аванесов В.С. Пять этапов педагогических измерений. http://testolog.narod.ru/Theory58.html

[79] Аванесов В.С. Основы педагогической теории измерений// №1, 2004 г. С.15-21.

[80] Аванесов В.С. Форма тестовых заданий. М.: Центр тестирования, 2006.

[81] Аванесов В.С. Форма тестовых заданий. М. Центр тестирования, 2006. – 137 стр.

[82] Аванесов В.С. Теоретические основы разработки заданий в тестовой форме. Уч. пособие для профессорско-преподавательского состава высшей школы. М. МГТА, 1995. -95с. Аванесов В.С. Композиция тестовых заданий. М.Центр тестирования. 2003. 217 стр.

[83] Аванесов В.С. Математические модели педагогического измерения. Научное издание. М.: Иссл. центр проблем качества подготовки специалистов, 1994. - 26с.;

[84] Аванесов В.С. Педагогическое измерение латентных качеств //Педагогическая диагностика, №4, 2003г.

[86]Понятия «качество», «свойство», «признак» удобно рассматривать как обобщенный аналог английского понятия trait.

[87]Серия статей в журнале «Педагогических Измерений» а также на сайте http://testolog.narod.ru

[88] Гегель Г. Энциклопедия философских наук // Соч.,Т. 1: Логика, 1929.- 368с.

[89]Подробнее см. Аванесов В.С. Композиция тестовых заданий. М.: Центр тестирования, 2002., С.163.

[90] Ronald K. Hambleton, H. Swaminathan, H. Jane Rogers. Fundamentals of Item Response Theory. p.6., Sage publ., 1991.

[91] Аванесов В.С. Проблема объективности педагогических измерений// педагогические Измерения. №3, 2008г.

[92]Аванесов ВС. Форма тестовых заданий. М.: Центр тестирования, 2005. – 156 с.