ГЛАВА ТРЕТЬЯ
ОСНОВЫ ТЕОРИИ ТЕСТОВОГО ПЕДАГОГИЧЕСКОГО КОНТРОЛЯ
3.1. Определение теста. В педагогической литературе о тестах нет вопроса более важного, чем определение самого понятия "тест". Именно поэтому вопросу нет не только единства, но даже и сходства позиций; размах мнений оказывается слишком широк - от попыток научного истолкования до суждений обыденного сознания и различных искажений. Чаще всего мы встречаемся с упрощенным восприятием этого понятия как простого перевода английского слова "test" - проверка, проба.
Между тем, естественная для обыденного сознания подмена научного понятия элементарным переводом значения слова создает немало трудностей в теории и практике. В теории это приводит к засорению понятийного аппарата науки словами обыденной речи, не имеющими заметного научного содержания, а в практике - к подмене тестов тестоподобной и совсем нетестовой формой проверки, ошибочно называемой тестом. Многочисленные примеры таких "тестов" легко найти в газетно-журнальной периодике, в различных конкурсах и публикациях.
В отечественной литературе 30-х годов делалась попытка связать определение теста с понятием эксперимента. "Тест, - по мнению С.Г.Геллерштейна, - это испытательный эксперимент, носящий характер определенного задания, которое стимулирует определенную форму активности и выполнение которого, поддаваясь количественной и качественной оценке, служит симптомом совершенства определенных функций (73; 6). Недостаток этого, скорее психологического, нежели педагогического определения пытался преодолеть, в те же годы, другой автор - М.С.Бернштейн. "Психологический тест, - писал он, - является разновидностью психологического эксперимента, так же, как педагогический тест является разновидностью педагогического эксперимента" (59; 4).
Одним из истоков приведенных истолкований теста было определение В. Штерна, данное в 1904 году. "Тест представляет собой известного рода пробу психики, он представляет собой не испытание знаний, а испытание способностей; от психологического эксперимента тест отличается тем, что он в короткое время и с помощью простых средств определяет характеризующую человека индивидуальную ценность" (Цит.56; 14).
Чувствовавший общественную и научную опасность такого рода упрощенчества в истолкования сути теста, М.С. Бернштейн предостерегал: "тестовая методика отнюдь не так проста и кратковременна; в этом смысле определение В. Штерна является даже опасным, так как оно создает совершенно неправильное представление о той методологической трудности, с которой связана тестовая работа"(56;14). Наиболее правильным этот же автор считал определение М.Ю.Сыркина: "под тестом мы разумеем набор задач, который по заранее установленному и совершенно определенному способу предлагают ряду испытуемых для решения, с целевой установкой сравнить результаты решения разных лиц или разных групп" (Цит. по 56; 15).
В те годы, как и сейчас, было много псевдотестов, не проходивших эмпирическую проверку. Это были привычные вопросы, называемые входившим тогда в моду словом "тест". Если перенестись с той далекой поры и посмотреть на имеющиеся определения педагогического теста, то мы увидим скорее не продвижение в этом вопросе, а заметный регресс, проявляющийся в описательности, в несущественности выделяемых признаков теста и в нетерминологичности определений.
Ч.Куписевич дает такое определение: "дидактический тест отличается от письменной проверки тем, что включенные в него вопросы являются вопросами замкнутыми, ограничивающими свободу ответа ученика и состоящими или в заполнении имеющихся в тексте пробелов, или в выборе правильного ответа среди нескольких неточных или даже ошибочных" (125; 314). Этот автор допускает существование только двух форм тестовых заданий, с чем трудно согласиться. Очень спорное определение тестов как "проверочных вопросов и задач со стандартными ответами типа "да" или "нет" дает В.М. Рогинский; спорно, потому что, в нашем понимании, в профессионально сделанных тестах нет ни вопросов, ни задач, ни стандартных ответов указанного типа. Он же отмечает отсутствие литературы по тестированию (170; 76).
Есть немало работ, в том числе зарубежных, где вопрос об определении понятия "тест" вообще не поднимается. Авторам таких работ сущность теста представляется, вероятно, ясной и бесспорной. Есть, наконец, и еще один тип отношения авторов к определению понятия "тест": они определяют его без указания на существенные признаки теста, как требует того научная логика. Достаточно привести только один пример такого упрощенного определения теста, как "серии вопросов и заданий, при выполнении которых можно ограничиться расстановкой цифр, подчеркиванием нужных ответов и односложными ответами" (114; 64). Еще один пример подобного рода - уже упоминавшееся определение теста как игры (105; 4).
Определение теста нередко дается с упоминанием двух основных критериев проверки его качества (258; 22). Это лучше упомянутых выше определений, ибо в них заложен рефлексивный момент, присущий тесту; как правило, только в его определении закладываются критерии проверки качества, что указывает, в общем случае, на сравнительно высокий уровень таких определений, а также на способ эмпирического подтверждения их правильности.
Одна из идей развертываемого здесь исследования - показать неадекватность существующих в литературе определений современному содержанию этого понятия, особенно в случаях, когда оно само становится предметом научного исследования и основой для практической разработки тестов. Другая идея - попытаться дать новое определение теста, содержащее ряд специальных терминов, которые, в соответствии с замыслом, должны выступить в роли понятийных индикаторов - критериев демаркации настоящего теста от псевдотестов.
По мнению автора, последние представляют собой форму бедствия и несут угрозу образованию из-за подмены тестов и из-за бездумных затрат на создание того, что тестами не является. В качестве критериев демаркации теста от нетестов в разработанное здесь определение включены термины - задание (теста), содержание, форма, трудность, уровень, система, структура, качество.
Равноправное функционирование различных определений и истолкований сущности теста можно объяснить рядом причин.
Во-первых, насильственной приостановкой в развитии теории и практики тестирования в нашей стране, что не могло не сказаться отрицательно на самой чувствительной части теории тестов - на состоянии ее понятийного аппарата. Во-вторых, заметный прагматический уклон большинства зарубежных изданий, в которых в силу этого вопросу понятий уделяется мало внимания. Можно говорить и о различных точках зрения на тест.
Само понятие "тест" относится к тем, подлинный смысл которых неоднократно искажался. Оно было изгнано из учебников и пособий по педагогике, но не по причине ошибочности, а из-за субъективизма в политике, в педагогической науке и практике, в рамках которого тестам места не находилось. Еще одним примером слова с искаженным смыслом является тестология. Незамутненная идеологией и политикой, интерпретация этого понятия проста и прозрачна: наука о тестах. Фактически же, начиная с 30-х годов, тестология называлась буржуазной наукой, все цели которой считались реакционными. И хотя такие суждения пролеткультовского толка теперь уже повсеместно считаются неадекватными духу нашего времени, все-таки появляются единичные публикации, где тестам по-прежнему отказывается в научности (185).
Анализ определений, имеющихся в других науках, помогает смотреть на обсуждаемый вопрос шире. Имеется, например, по меньшей мере двадцать семь определений философии (165; 16-17). Немало трудностей с точным определением физики, географии, химии, их основного предмета. Учитывая высокий уровень развития приведенных для примера наук, можно отметить, что сам факт существования нескольких определений не надо рассматривать как указание на какую-либо неполноценность отмеченных наук. То же можно сказать и о тестовом научном направлении, которое в отечественной педагогике все еще находится на начальном этапе становления.
Именно на этом этапе важно сформулировать совокупность взаимосвязаннных понятий - основных, исходных и производных - способствующих развитию тестов в наиболее перспективных направлениях: это развитие теории педагогических измерений и, в частности, латентно-структурного анализа в педагогике, использование системных понятий в теории тестов, разработка критериев обоснования качества тестов. Руководствуясь этими соображениями, в данной работе дается новое определение педагогического теста:
Педагогический тест - это система фасетных заданий определенного содержания, возрастающей трудности, специфической формы, позволяющая качественно оценить структуру и эффективно измерить уровень знаний, умений, навыков и представлений.
Это определение гомогенного теста, создаваемого для проверки знаний по одной учебной дисциплине. Оно заметно отличается как от определения гетерогенного теста, нацеленного на проверку знаний по нескольким учебным дисциплинам сразу в одном тесте, так и от всех других определений, имеющихся в отечественной и зарубежной литературе. Исследование гетерогенных тестов, требующее обращения к многомерным статистическим методам, вынудило бы автора в значительной мере выйти за пределы педагогической теории и потому этот вопрос здесь не затрагивается.
Возвращаясь поэтому к определению гомогенного теста, отметим, что главное его отличие от всех других заключается в том, что в этом определении получают развитие сразу несколько идей. Первая - тест рассматривается не как обычная совокупность или набор заданий, а в виде более богатой по научному содержанию категории "система". В самом общем виде систему принято понимать как комплекс взаимосвязанных элементов, образующих некоторую целостность (76; 18). Позитивные следствия введения понятия "система" в определение теста рассматриваются чуть ниже, после перечисления остальных элементов.
Вторая идея, заложенная в нашем определении, состоит в том, что в нем совершен отход от укоренившейся традиции рассмотрения теста как простого средства проверки, пробы, испытания. В нем подчеркнуто, что тест является качественным средством педагогического измерения, проводимого на латентной шкале, не существующей в явно заданном виде. Эта переменная является результатом концептуализации и операционализации. В соответствии с положением теории латентно-структурного анализа, тестовые оценки не являются точными оценками испытуемых на интересующей нас латентной переменной, такой, как например, знание учебной дисциплины, учебная мотивация, интеллект и др.; они лишь репрезентируют эти значения с некоторой точностью. Вот почему в Item Response Theory и в латентно-структурном анализе (LSA) в качестве исходной аксиомы принимается положение о принципиальном несовпадении тестовых баллов испытуемых и их истинных баллов на латентной шкале. Первые используются для получения вторых, и делается это с помощью математико-статистических моделей, описанных в разделе 2.3.
Третья идея, выдвинутая в нашем определении теста - это включение нового критерия, эффективности теста, который ранее в литературе по тестам не рассматривался в качестве специально - научного критерия анализа и конструирования тестов. Этот критерий подробно освещен в нашей работе здесь, в гл.5.
Возвращаясь к идее теста как системы заданий, надо отметить, что систему заданий образует не всякая совокупность, а только та, которая обусловливает возникновение нового интегративного качества, отличающего тест от других средств педагогического контроля. Из множества возможных систем наилучшую образует та целостная совокупность, в которой качество теста проявляется в сравнительно большей степени. Отсюда вытекает мысль о выделении первого из двух главных системообразующих факторов - наилучшего состава тестовых заданий, образующих целостность. Целым, как известно, называется такое объединение частных объектов, внутри которого составляющие его элементы находятся в прочной и устойчивой взаимосвязи (184; 164). Исходя из этого, можно дать одно из самых коротких определений: тест - это система заданий, образующих наилучшую целостность. Целостность теста - это устойчивое взаимодействие заданий, образующих тест как развивающуюся систему.
Данное выше краткое определение теста не может, по причине краткости, оттенить те специфические особенности которыми обычно характеризуются научные понятия, те самые differentia specifica, отличающие научные понятия от ненаучных. Для углубления научного анализа нужны более развернутые понятия, к тому же сопряженные между собой. Примером такого рода является понятие "задание", которое входит в понятие "тест" и составляет его важную часть.
Задания теста - это варьирующие по элементам содержания и по трудности единицы контрольного материала, сформулированные в утвердительной форме предложений с неизвестным. Подстановка правильного ответа вместо неизвестного компонента превращает задание в истинное высказывание, в то время как подстановка неправильного ответа приводит к образованию ложного высказывания; последнее свидетельствует о незнании студентом данного учебного материала. Задания теста создаются в соответствии с целью, содержанием и формой.
Цель разработки тестовых заданий - создание средств для разработки объективного метода измерения знаний студентов.
Далее можно сказать, что последнее делается для совершенствования управления вузом, а улучшение управления вузом преследует общую цель подъема качества образования и т.д., откуда легко выстраивается иерархия целей, которую мы здесь рассматривать не будем из- за риска отвлечься от основного предмета.
В том, что цель и связанный с ней ожидаемый результат выступают системообразующими факторами, в литературе нет никаких сомнений. Но цель - как справедливо заметил А.Н.Аверьянов - не может объединить элементы неживой природы. В качестве интегратора вместо цели автор выделяет идею (33; 51).
Ведушая идея, положенная в создание теста - это идея системы измерения, позволяющая получить более точные, количественно выраженные эквиваленты интересующего свойства испытуемых.
В качестве другого системообразующего фактора нередко называется время. Действительно, одно из соображений, положенных в основу создания тестов, - иметь инструмент быстрого и относительно точного оценивания больших контингентов испытуемых. Требование экономии времени становится естественным в массовых процессах, каковым и стало высшее образование за последние шестьдесят лет. Одно из актуальных направлений современной организации тестового педагогического контроля -это индивидуализация контроля, приводящая к значительной экономии времени тестирования. Контроль ведется с помощью заранее оцененных, по трудности, заданий.
При этом могут реализоваться несколько оптимизирующих стратегий. Одна из них заключается в том, что всем студентам вначале дается не самое легкое задание, как обычно, а задание средней трудности. Тем, кто выполнил его правильно, дают задание, среднее по трудности из числа заданий выше среднего уровня трудности. И наоборот, тем кто ответил неправильно, ЭВМ предлагает среднее по трудности задание из числа заданий ниже среднего уровня. Например, если в тесте имеется двадцать одно упорядоченное по трудности задание, тестирование начинается с одиннадцатого. Если студент ответил правильно, ему предъявляется шестнадцатое задание и, в случае успеха, девятнадцатое. Аналогично, слабо подготовленный студент после неудачи на одиннадцатом задании пробует силы на шестом, и далее, по тому же принципу, до момента стабилизации, при котором pj равно 1/2. Легко заметить, что весь процеcc тестирования при этом подходе занимает считанные минуты.
Применение этой или другой оптимизационной схемы возможно в случае, когда тест предварительно проработан на типичных выборках, и для каждого задания найден параметр трудности, а если надо, то и другие параметры. Отсюда легко сделать вывод о важности отработки теста до того, как он начнет применяться в педагогическом процессе. Успех здесь зависит от высокого качества заданий и от уровня владения теорией и методикой педагогического тестирования.
Другая сторона вопроса заключается в том, что от времени тестирования существенно зависит качество результатов. Каждый тест имеет оптимальное время тестирования, уменьшение или превышение которого снижает качественные показатели теста. Оптимальное время тестирования определяется эмпирически, по показателю дисперсии тестовых данных. Если по оси абcцисс отложить время тестирования, а по оси ординат - значение дисперсии тестовых результатов, получаемую после каждого пробного контроля, то соединив точки, получим представление об изменении дисперсии; максимум значения последней укажет на оптимум времени, необходимого для тестового контроля (317).
Со временем тестирования связан и вопрос о количестве заданий теста. В классической теории теста исходили из физической, по сути, идеи увеличения точности в зависимости от числа заданий: чем больше, тем точнее. Однако эта идея входила в противоречие с реальными возможностями учебного процесса, с естественным нежеланием студентов отвечать на большое количество заданий. Поэтому время тестирования ограничивается, исходя из фактических соображений удобства тестирования и идеи максимальной дифференциации студентов, показателем чего и является дисперсия тестовых баллов.
Для оценки содержания контрольного материала могут оказаться полезными три критерия, сформулированные Т.И.Курохтиной (127). Это критерий значимости материала, под которым она понимает узловые вопросы, входящие в структуру учебного предмета как неотъемлемые элементы, как основа учебной дисциплины. Второй критерий - типичность: типичные материалы характеризуют учебный материал с точки зрения их распространенности, повторяемости, частотности, стандартности в последовательности действий, приемов при решении заданий.
Третий критерий она называет посильностью, который в теории тестов определяется как показатель трудности задания.
Последний мы рассматриваем как важный системно, и одновременно, структурообразующий фактор теста. К этому можно добавить еше один критерий - это критерий логической определенности тестового задания. Его можно сформулировать словами, близкими к формулировке Х.Карри: задание является определенным, если на него можно ответить утвердительно или отрицательно, и если существует эффективный процесс для нахождения такого ответа (108; 69).
Проявлению системного качества теста способствует и единая дисциплинарная общность заданий, реализующая идею измерения подготовленности студентов по одной какой-либо определенной учебной дисциплине. Совокупность таких заданий, отобранных в соответствии с требованиями теста, образует гомогенный тест, измеряющий одно какое-либо качество ( свойство). В таком тесте не допускается использование заданий, выявляющих другие свойства. Наличие последних нарушает требование дисциплинарной чистоты педагогического теста. Пример: в тесте по физике экспертно устанавливается уровень математических знаний, используемых при решении физических задач. Превышение принятого уровня приводит к смещённости результатов измерения; по мере превышения последние все больше начинают зависеть не столько от знания физики, сколько от знания математики, чем нарушается требование дисциплинарной чистоты.
Для измерения знаний потребуется дать соответствующее определение учебной дисциплины, установить экспертно ее содержание, раскрыть основные понятия, подобрать задания, соответствующие выделенному содержанию, и затем добиваться предметной чистоты измерения по отношению к этой четко определенной в своем содержании учебной дисциплине.
В педагогических тестах все еще пробивает дорогу традиция, недавно утвердившаяся в психологическом тестировании, - это формулирование тестовых заданий не в виде задач, вопросов, указаний, требований, а виде утверждений. В зависимости от формы тестовых заданий, испытуемые в большинстве случаев либо выбирают ответы из числа предложенных, либо дописывают его сами в отведенном для этого месте тестового бланка.
Форма тестовых заданий позволяет в одном предложении сконцентрировать содержание вопроса и содержание ответа. Вместо, например, вопроса: "КТО СЧИТАЕТСЯ ПЕРВЫМ В ИСТОРИИ ГРЕЧЕСКИМ ФИЛОСОФОМ?" и ответа: "ПЕРВЫМ В ИСТОРИИ ГРЕЧЕСКИМ ФИЛОСОФОМ СЧИТАЕТСЯ ФАЛЕС", тестовая форма позволяет то и другое объединить в одном предложении с неизвестным: ПЕРВЫМ В ИСТОРИИ ГРЕЧЕСКИМ ФИЛОСОФОМ СЧИТАЕТСЯ ____________. В случае правильного ответа предложение (задание) становится истинным высказыванием, в случае неправильного - ложным высказыванием.
Немалую роль в формировании теста как системы играет требование формальной логической правильности всех заданий, включенных в тест. Как отмечается в литературе, логическая правильность в формулировании тестовых заданий достигается при соблюдении следующих логических условий:
- соразмерности объема определяющего понятия объему определяемого. Примеры (44):
1.ЧЕТЫРЕХУГОЛЬНИК, У КОТОРОГО ВСЕ СТОРОНЫ РАВНЫ, НАЗЫВАЕТСЯ ________________ (ответ - ромб).
2.ПРЯМОУГОЛЬНИК, У КОТОРОГО ВСЕ СТОРОНЫ РАВНЫ, НАЗЫВАЕТСЯ ______________ (ответ - квадрат). В случае, если на первое задание дается ответ "квадрат", допускается несоразмерность: объем определяющего - четырехугольника - больше объема определяемого - квадрата (там же);.
- отсутствия тавтологии. Примеры: СТОИМОСТЬ ТОВАРА ОПРЕДЕЛЯЕТСЯ СТОИМОСТЬЮ ____________ (ответ - труда). СТОИМОСТЬ ТРУДА ОПРЕДЕЛЯЕТСЯ СТОИМОСТЬЮ _________________ (ответ - товара). Как уже многократно отмечалось в литературе, в этих примерах обнаруживает себя нарушение правил логики; одна стоимость определяется через другую, которая в свою очередь нуждается в определении (там же);
- утвердительной формы тестового задания.
ПРИ АНАЛИТИЧЕСКОМ СПОСОБЕ ВЫРАЖЕНИЯ ГРАММАТИЧЕСКОГО ЗНАЧЕНИЯ ИСПОЛЬЗУЕТСЯ (обводится кружком номер правильного ответа, (106; 17):
1) чередование звуков
2) окончание
3) служебные слова
4) суффиксы
5) префиксы
В тестовых заданиях не допускается определение понятия через перечисление элементов, не входящих в него. Пример:
ТОЧКА ЕСТЬ ТО, ЧТО НЕ ИМЕЕТ ______________. Ответ, по Евклиду - "частей", но это как раз случай неудачного определения и понятия, и тестового задания. Правила логики требуют, что бы правильный ответ предполагал знание, в первую очередь, всех существенных элементов, входящих в понятие.
В "Правилах для руководства ума" Р.Декарт высказал свои критерии правильности формулирования вопросов. Эти критерии полезны и для тестовых заданий. "Во-первых, - писал он, - во всяком вопросе должно быть некоторое неизвестное, иначе вопрос бесполезен; во-вторых, это неизвестное должно быть чем-нибудь отмечено, иначе ничто не направляло бы нас к исследованию данной вещи, а не какой-нибудь другой; в-третьих, вопрос должен быть отмечен чем-нибудь известным" (85; 130).
Есть и логические преимущества формулирования тестовых утверждений (высказываний) вместо вопросов. В дополнение к ранее описанным (11; 93-99) отметим, что всякий вопрос, являясь предложением, требует ответа, ешё одного предложения, в то время как тестовое утверждение содержит в одном предложении и вопрос, и ответ. На языке эротетической логики (логики вопросов и ответов) это преимущество выражается в виде четкого выделения субъекта вопроса, под которым понимается множество альтернатив (52; 14). Кроме того, тестовое утверждение (задание) формулируется так, чтобы в его структуре была заложена возможность прямого ответа. Под прямым ответом в логике понимается утверждение, которое служит полным, и только полным ответом на заданный вопрос (52; 24). С точки зрения психологии прямой ответ представляет собой тот тип ответа, который спрашивающий намерен получить на свой вопрос (там же).
Во всяком тестовом утверждении заранее определяется, что однозначно считается ответом на данный вопрос, с какой степенью полноты должен быть правильный ответ. При построении тестового задания возможные ответы являются главными, после содержания задания, признаками, существенно влияющими как на содержание, так и на форму той части задания, которую логики называют предпосылкой вопроса (55; 51).
Еще одним формальным требованием к формулированию тестовых заданий является краткость. Краткость тестового задания обеспечивается тщательным подбором слов, символов, графиков, позволяющих минимумом средств добиваться максимума ясности смыслового содержания задания. Исключаются повторы, малопонятные, редко употребляемые, а также неизвестные для студентов символы, иностранные слова, затрудняющие восприятие смысла. Примерное количество слов в заданиях - пять-семь, но в общем, чем меньше, тем лучше. Хорошо, когда задания содержат не более одного придаточного предложения. Как отмечал известный лингвист А.М.Пешковский, точность и легкость понимания растут по мере уменьшения словесного состава фразы и увеличения ее бессловесной подпочвы. Чем меньше слов, тем меньше недоразумений (Цит. по 93; 75).
Хороший способ достижения краткости задания - это спросить о чем-нибудь одном. Часто встречающиеся случаи утяжеления заданий требованиями что-то найти, решить и затем еще и объяснить отрицательно сказываются на качестве задания и теста в целом, хотя с педагогической точки зрения легко понять причину формулирования такого рода заданий. Если в таких заданиях студент что-то решает без преподавателя, потом что-то объясняет преподавателю, то возникает сопряжение объективного метода с субъективным, плюс к этому - затруднения с оценками при решении вопроса какой выставить балл. В противоположность этому, одно из важных требований теста - заранее разработанные единые правила получения баллов без участия преподавателя.
В сознании преподавателя - предметника данное выше определение педагогического теста преломляется сквозь призму содержания знаний по преподаваемой им учебной дисциплине.
Вопросам анализа содержания учебной дисциплины и отбора материала для тестового контроля знаний раскрываются в следующем разделе.