Представлено для публикации в ж. «Педагогически
измерения» №1, 2004 года.
Обновлённая редакция 2008 года
ОСНОВЫ ПЕДАГОГИЧЕСКОЙ ТЕОРИИ ИЗМЕРЕНИЙ
Докт. пед. наук,
проф. В.С. Аванесов
Москва, testolog@mtu-net.ru
Рассматривается проблема построения общей теории
педагогических измерений. Сформулировано новое определение педагогического
теста и других основных понятий, исследованы формы тестовых заданий и критерии
отбора содержания тестов.
1. Педагогические измерения
Педагогические измерения – это прикладная научная теория,
сформировавшаяся на стыке педагогики, психологии, теории измерений, статистики,
математики, логики и философии. Одновременно, педагогические измерения можно
рассматривать как процесс практической образовательной деятельностью,
нацеленный на получение объективных, а точнее, объективированных оценок уровня
текущей и итоговой подготовленности обучаемых. На Западе этой проблемой занимается
наука, называемая «Educational Measurement». Её основной предмет – разработка
качественных тестов для измерения уровня подготовленности обучаемых.
В отличие от элементарных
оценок и некоторых простых физических измерений, педагогические измерения
требует теоретизации, в которую входят: определение
ведущего понятия, уточнение имени измеряемого качества, определение предмета
измерения. Важно построить систему индикаторов, понятийных и эмпирических,
указывающих на наличие или отсутствие интересующего качества[2]. Далее требуются
аксиоматика и математические формализмы, выбор подходящей модели и
стандартизация условий измерения. И, наконец, полученные результаты подлежат
аргументированной интерпретации.
2. Основные понятия педагогической теории измерений
В рамках предлагаемой технологии образовательной деятельности ведущая роль отводится педагогическим заданиям. Эта технология- развитие ранее сформулированного задачного подхода к организации обучения.
В наши дни, наряду с задачами, развивающими вопросами и другими формами обучения, возрастающую роль начинают выполнять задания в тестовой форме.
Педагогическое задание
определяется как средство интеллектуального развития, образования и обучения,
способствующее активизации учения, повышению качества знаний, а также повышению
эффективности педагогического труда. Это понятие является общим, охватывающим
цель и смысл всех возможных заданий, посредством которых активизируется процесс
собственной познавательной деятельности учащихся. Оно включает такие формы,
как вопрос, задача, учебная проблема и другие, используемые для активизации
собственной учебной деятельности (учения).
Композиция заданий в тестовой форме. Творческое соединение формы и содержания является сутью содержания другого важного понятия теории педагогических измерений -композиции тестовых заданий. Композиция, одновременно, является и главным предметом методики разработки заданий в тестовой форме. Композицию не случайно считают уделом сосредоточения многих проблем, связанных с замыслом и исполнением, содержанием и формой. Успех в композиции заданий, как и в создании произведений искусства, зависит не только от оригинальности идеи и сюжета, но и от мастерского владения формой. Вот почему хорошо сделанное педагогическое задание - это всегда лучшее, на текущий момент, содержание и наилучшая форма; то и другое - результат, появляющийся вследствие осознания важности их взаимосвязи. «Там...где создание формы, - писал Гегель, - является существенным интересом и настоящей задачей, вместе с успехами изображения незаметно и неявно движется вперед также и содержание. Как и вообще мы до сих пор видели, что форма и содержание идут в своем совершенствовании рука об руку [4]
Разработка теста начинается с композиции заданий в
тестовой форме.
Первую форму образуют задания с выбором одного или нескольких правильных
ответов. Если к заданиям даются готовые ответы на выбор (обычно один
правильный, остальные неправильные), то такие задания лучше называть заданиями
с выбором одного правильного ответа. Автор этой работы предлагает шире
внедрять в практику задания с выбором нескольких правильных ответов. По
содержанию они труднее, они проверяют знания глубже, шире и лучше, чем задания с выбором одного ответа. Этим заданиям
предшествует инструкция - Обвести кружком номера всех правильных ответов.
Вторую форму образуют задания, в которых правильный ответ надо дописать;
обычно это одно слово или один знак. Заданиям этой формы предшествует
стандартная инструкция – Дополнить.
Третью форму
образуют задания, состоящие из элементов двух столбцов. Таким заданиям
предшествует инструкция – Установить соответствие.
Четвертую форму - задания процессуального или
алгоритмического толка. Каждому заданию предшествует инструкция - «Установить правильную последовательность». Испытуемый
ставит ранги в прямоугольниках, стоящих слева перед каждым элементом
задания. При компьютерном тестировании испытуемый работает с помощью
инструментальной программы, сделанной с учетом этой формы заданий; там после
проставления каждого ранга курсор автоматически передвигается от одного
квадрата к другому.
Выделяются три основных понятия теории: это "задание в тестовой форме", "тестовое задание" и "педагогический тест".
Задания в тестовой форме отвечают следующим требованиям:
-
краткость;
- технологичности
-
правильность формы;
- логическая форма высказывания;
-
одинаковость правил оценки ответов;
-
наличие определенного места для ответов;
-
правильность расположения элементов задания;
-
одинаковость инструкции для всех испытуемых;
-
адекватность инструкции форме и содержанию задания.
Вторым основным понятием теории педагогических измерений
является понятие «тестовое задание»
Тестовое задание - это составная единица теста, отвечающая перечисленным
выше требованиям формы и, кроме того, статистическим требованиям: 1) известной
трудности;
2) достаточной вариации
тестовых баллов;
3) положительной
корреляции баллов задания с баллами по всему тесту.
Наличие достаточного числа тестовых заданий,
полученных в результате обязательной эмпирической апробации заданий в тестовой
форме, позволяет перейти к разработке теста
как системы, обладающей целостностью, составом и структурой.
Требование известной
трудности оказывается важнейшим системообразующим признаком тестового задания.
Если тест - это система заданий возрастающей трудности, то в нем нет места
заданиям с неизвестной мерой трудности. Вариация тестовых баллов по каждому
заданию является необходимым условием проведения измерения. Снижение такой
вариации ведет к снижению общей точности измерений. В тест не включаются
задания, корреляция которых с суммой баллов ниже 0,200.
Третьим, и главным, понятием
теории является педагогический тест, который разрабатывается педагогами для
педагогических целей. Удивительный факт - в западной литературе уделяется мало
внимания поиску точных определений теста. Педагогический тест - это система параллельных заданий
равномерно возрастающей трудности, специфической формы, определенного содержания,
создаваемая с целью аргументированной оценки уровня и структуры
подготовленности обучаемых. Полезно дать краткое истолкование основных
терминов.
Система означает, что в тесте есть состав заданий и структура их связи . В тесте собраны только такие задания, которые обладают
системообразующими свойствами. Здесь, в первую очередь, надо выделить общую
принадлежность заданий к одной и той же предметной области знаний, т.е. к одной учебной дисциплине, их
связь и упорядоченность. В тесте задания располагаются в порядке равномерно возрастающей
трудности - от самого легкого, до самого трудного.
Специфическая форма тестовых заданий отличается тем, что задания теста
представляют собой не вопросы и не задачи, а задания, сформулированные в форме
высказываний, в зависимости от ответов, истинных или ложных. Традиционные
вопросы, напротив, истинными или ложными не бывают, а ответы на них
нередко неопределенны и многословны; для
выявления их правильности требуются заметные, в суммарном исчислении, затраты
интеллектуальной энергии преподавателей.
Содержание теста определяется как оптимально редуцированное отображение
фрагмента учебной дисциплины в тестовой форме. Содержание теста существует,
сохраняется и передается в одной из четырех основных форм заданий. Вне тестовых
форм ни тест, ни его содержание не существуют. Определенное содержание означает
использование в тесте только такого контрольного материала, который
соответствует содержанию учебной дисциплины; остальное в педагогический тест не
включается, ни под каким предлогом. Например, проверка уровня интеллектуального
развития является предметом психологического тестирования.
Критерии отбора содержания теста
Основные критерии отбора содержания теста:
- Соответствие содержания теста целям тестирования;
- Значимость проверяемых знаний в общей системе знаний.
- Взаимосвязь содержания и формы.
- Содержательная правильность тестовых заданий.
- Репрезентативность содержания учебной дисциплины в содержании теста.
- Соответствие содержания теста уровню современного состояния науки.
- Комплексность и сбалансированность содержания теста.
- Системность содержания.
- Вариативность содержания.
- Соответствие уровня трудности содержанию цели тестирования.
Ответ на задание педагогического теста представляет собой краткое суждение,
связанное по содержанию и по форме с содержанием задания. Для каждого задания
ответы делятся на правильные и неправильные. Критерии
правильности заранее определяются авторами теста.
Уровень и структура знаний выявляются при анализе ответов каждого ученика на все
задания теста. Чем больше правильных ответов, тем выше индивидуальный тестовый
балл испытуемых. Обычно этот тестовый балл ассоциируется с понятием
"уровень знаний" и проходит процедуру уточнения на основе той или
иной модели педагогического измерения. Один и тот же уровень знаний может быть
получен за счет ответов на различные задания. Например, в тесте из тридцати заданий
испытуемый получил десять баллов. Эти баллы, скорее всего, получены за счет
правильных ответов на первые десять, сравнительно легких заданий. Присущую для
такого случая последовательность единиц, а затем нулей называют правильным
профилем знаний.
Если же обнаруживается противоположная картина, когда испытуемый правильно
отвечает на трудные задания и неправильно - на легкие, то это противоречит
логике теста и потому такой профиль знаний можно назвать инвертированным. Он
встречается редко, и чаще всего, по причине ошибочности теста, в котором
задания расположены с нарушениями требования возрастающей трудности. При
условии, что тест сделан правильно, каждый профиль свидетельствует о структуре
знаний. Эту структуру можно назвать элементарной, поскольку есть еще факторные
структуры.
Каждое учебное заведение должно стремиться, в первую очередь, к формированию
правильных индивидуальных структур знаний, в которых не было бы досадных
пробелов (разрывов в знаниях), и на этой основе повышать уровень подготовки.
Эта логика заметно выражена в Японии и в быстро развивающихся странах
Азиатско-Тихоокеанского региона. Уровень знаний в значительной степени зависит
от личных усилий и способностей учащихся, в то время как структура знаний
заметно зависит от правильной организации учебного процесса, от
индивидуализации обучения, от мастерства педагога, от объективности контроля -
в общем, от всего того, чего обычно не хватает.
3. Теории педагогических измерений
Ни один тест не может непосредственно и абсолютно точно измерить
интересующее качество личности. Потому что все качества личности прямо не
наблюдаемы; они выражаются через совокупность эмпирически наблюдаемых
индикаторов. Поэтому в теории принято считать все качества личности латентными.
Латентными называются положительные и отрицательные качества личности,
примерами которых являются «подготовленность студентов», «знание учебной
дисциплины», «способность понимать» «интеллектуальное развитие» и многие
другие. Попытки измерения подобных качеств[5]
на уровне обыденного сознания оканчиваются словесными или численными оценками,
содержащими в себе немалые погрешности.
В современной литературе
нет ясности относительно теоретической основы педагогических измерений. Раньше
в качестве такой основы ошибочно рассматривались статистические теории.
Ситуация несколько выправилась после классических работ Лорда[6]. Однако затем, в
последние тридцать лет, она вновь ухудшилась под влиянием сторонников теории
измерений, называемой на Западе Item Response Theory (IRT). Правда, последняя имеет там и
другое, более общее и точное название, но, к сожалению, менее употребляемое
название - Latent Trait Theory (LTT), что лучше перевести как математическую теорию
измерения латентных качеств личности. Во многих странах, а особенно в России, IRT нередко ошибочно провозглашается как
«единственная» и «современная» теоретическая основа педагогических измерений.
Между тем, два сравнительно новых варианта классической теории измерения - Strong True Score Theory и Random Sampling Theory, а также Theory of Generalizability[7], не менее современны, чем IRT. Во-вторых, в фокусе изучения IRT находятся, строго говоря, не тесты,
как системы заданий, а отдельные задания. Вот почему это, скорее, не
современная теория тестов, а математическая теория педагогических измерений.
Между тем ни одна из
упомянутых теорий не являются ни современными, ни педагогическими. Это уже
давно известные формальные и общие теории, применение которых в педагогических
измерениях хотя и плодотворно, но имеет вполне понятные пределы. Общность
проявляется в применимости их математического аппарата к измерениям в различных
общественных науках, таких как политология, психология, социология и многие
другие, что имеет положительные и отрицательные следствия. К отрицательным
последствиям можно отнести подмену научной проблематики собственно
педагогических измерений неадекватной математической и псевдонаучной лексикой[8]. А также не всегда подходящими
моделями измерения, что, например, неоднократно было установлено исследованиями
G. Karabatsos[9].
Нельзя сказать, что эта
подмена не замечалась. Например, известны попытки преодоления такой ситуации и
создания теории педагогических измерений в США[10]. В России этой проблемой занимался
автор данного доклада. Ниже приводятся основные результаты исследований.
Если
взять за основу классификации, например, философские понятия общего, особенного
и единичного, то можно предложить такую классификацию теорий:
Общая теория
педагогических измерений. Контуры общей теории педагогических измерений
удачно просматривались в работах R.Ebel[11] и других педагогов-тестологов.
Последовавшее затем увлечение большинства американских авторов математической
стороной проблемы измерения отвлекло их от построения целостной общей
педагогической теории измерения.
Главный предметом такой теории должны стать
разработка и применение заданий в тестовой форме, тестовых заданий и тестов для
активизации учебного процесса, научной организации тестовой формы самоконтроля
в процессе самообразования. Настоящее тестирование начинается, развивается и
прекращается вместе с учебным процессом. Отстраненное от такого процесса
тестирование неизбежно становится объектом бюрократических искажений,
несовместимых с тестовой культурой.
Другие предметы общей
теории - разработка целей и задач педагогических измерений; создание программ
проведения массового тестирования, их положительных и отрицательных последствий
на личность, общество и государство. К сугубо научным вопросам общей теории
можно отнести анализ понятий, положенных в основу измерений; содержание заданий
и теста в целом; разработка педагогических критериев эффективности и качества
проводимых измерений. Попытки разработки общей теории педагогических измерений
представлены в ряде публикаций автора данной работы[12].
Частные педагогические теории. С общей теорией соотносятся частные
теории. В качестве одной из таковых могла бы стать логико-педагогическая теория
композиции заданий в тестовой форме. Учитывая непосредственную
зависимость качества любого теста от правильной композиции содержания и формы
каждого отдельного задания, вряд ли можно признать конструктивными известные
попытки недооценки в потребности такого рода теории. Ведь каждое нарушение
формы, содержания, того и другого – источники погрешностей измерения. Прообразы
такой теории можно обнаружить в работах многих авторов второго поколения
западных тестологов и в публикациях на русском языке[13]. Предмет теории –
разработка принципов композиции заданий в тестовой форме, позволяющих творчески
соединять содержание каждого задания с подходящей для него формой.
Общие математические теории педагогического измерения. К числу таких теорий надо отнести известную на Западе, но неисследованную в России Random Sampling Theory. Известные варианты классической теории тестов полезно
рассматривать в связке с положениями Random Sampling Theory, учитывая их общую опору на
статистические теории индуктивного вывода. Более общей является другая теория, Theory of Generalizability (Dependability)[14]так же не исследованная в России. Это
самые общие теории, сосредоточившие в себе мощный статистический аппарат
исследования точности результатов измерения, возможности использования
дисперсионных комплексов для оценки достоверности влияния различных источников
погрешностей при измерении латентых качеств.
Специальные математические теории
педагогического измерения. К ним можно отнести частную
математико-педагогическую теорию тестовых заданий, в которую
целесообразно включить часть положений
классической теории тестов, известной на Западе под названием «Item Analysis», а также постулаты, модели и
вычислительные методы IRT. Только взятые вместе они позволяют проводить
тщательный анализ эффективности каждого задания с последующим решением о
включения их в тест, в банк заданий, или об исключении из разработки[15].
[1] Lord F.M. Lord F.M.,Novick M. Statistical Theories of Mental Test Scores. Addison-Wesley Publ. Co. 1968,
[2]Об этом процессе подробнее см., например, на стр.
87-105 книги: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука ,
1982.- 199с.
[3] Аванесов В.С. Этапы
разработки теста// «Конструирование педагогических тестов по русскому языку как
иностранному. Доклады и сообщения. ЦМО МГУ им. М.В.Ломоносова. 15-16 апреля 2003 г. М.2003. с.7-12.
[4] Гегель Г. Лекции по эстетике // Соч., т.13, кн.2.-
М.: Соцэкгиз, 1940.- 362с.
[5]Понятия «качество», «свойство», «признак» удобно
рассматривать как обобщенный аналог английского trait.
[6] Что подчеркивается, например, точным названием уже
упоминавшейся классической монографии Lord F. M. & Novick
M.R. Statististical Theories of
Mental Test Scores.
[7] Точного перевода названий этих теорий на русский язык
пока нет.
[8] Аванесов В.С. Понятийный аппарат педагогической
тестологии. Педдиагностика, №2, 2002г. С. 33-37. .
[9] Например: Karabatsos G. Axiomatic
measurement theory as a basis for model selection in item response theory.
Paper presented at 32nd annual conference of the Society for
Mathematical Psychology,
[10]Например, в работе Ebel, R.L. Measuring Educational
Achievement. Prentice-Hall, Inc.Englewood Cliffs,
[11] Ebel, R. Measuring
Educational Achievement. Prentice Hall, Inc.
[12]Аванесов В.С. Форма тестовых заданий // Труды Иссл.
центра. М. 1991.-33с.
Аванесов В.С. Основы научной организации педагогического контроля в
высшей школе. М.: Иссл. центр, 1989. –167с.
Аванесов В.С. Методологические и теоретические основы тестового контроля".
Дисс… докт. пед. наук. СПб госуниверситет, 1994.-339с.;
Аванесов В.С. Педагогическое измерение латентных качеств
//Педагогическая диагностика, №4, 2003г.;
[13]Аванесов В.С. Теоретические основы разработки заданий
в тестовой форме. Пособие для профессорско-преподавательского состава высшей
школы. М.: МГТА, 1995.-95с.
Аванесов В.С. Композиция тестовых заданий. 1,2 и 3 изд.; 3 изд. М.:
Центр тестирования 2002г. – 217с.
[14] Перевода названий всех этих теорий на русский язык
пока нет.
[15] См. напр. Аванесов В.С. Математические модели педагогического измерения. Научное издание. М.: Иссл. центр проблем качества подготовки специалистов, 1994. - 26с.; «Научные проблемы тестового контроля знаний». М.: Иссл. Центр, 1994. – 135с.
Так же 11 глава книги автора «Композиция тестовых заданий». 3 изд. М.: Центр тестирования 2002г. – -239с.