2.1

ГЛАВА ВТОРАЯ

ИСТОРИЯ ВОЗНИКНОВЕНИЯ И РАЗВИТИЯ

ТЕСТОВОГО КОНТРОЛЯ.

История возникновения тестового педагогического контроля уходит своими корнями вглубь веков. Возникновение контроля совпадает с началом культуры, в становлении которой решающую роль играли различные формы образования, в том числе и самые примитивные. Уже в самых древних формах существования человеческих общностей была осмыслена важная роль различных заданий, служивших средством диагностики уровня развития интересующих свойств личности.

В настоящей работе делается попытка по-новому осмыслить историю тестов, исходя из идеи специфичности тестов. Развертывание этой идеи сквозь призму исторического процесса подводит к необходимости выделения трех основных периодов возникновения тестов и развития тестового контроля. Первый - это период предыстории тестов, когда различные испытания человека существовали в донаучной, по сути, форме, берущей свое начало с глубокой древности и длившейся вплоть до конца XIX - начала XX века. Выделение этого периода объясняется необходимостью развести научное в тестах от донаучного, а также стремлением преодолеть попытки архаизации тестов, так как считается, что тесты появились более четырех тысяч лет назад (254;3). Однако вопрос о возникновении тестов во многом зависит от того, как понимается сущность теста. По мнению В.С.Швырева, вопросы такого рода имеют прямое отношение к проблеме так называемой протонауки, или преднауки (206; 118).

Второй период развития тестов проходил под знаком усиления научности, постепенного создания теоретического багажа, в котором самое видное и достойное место занимает так называемая классическая теория тестов. Этот период охватывает время с начала ХХ века до конца семидесятых годов, когда протекало становление этой теории.

Расцвет классической теории в 50 и 60 годах сменился ее упадком в 70 годах вследствие появления новой, математически более оснащенной и практически более эффективной теории, называемой по-английски Item Response Theory. Эта теория представляет собой педагогический вариант теории латентно - структурного анализа, развивавшегося интенсивно P. F.Lazarsfeld и его последователями. Разработка Item Response Theory, не имеющей пока подходящего названия на русском языке, проходила в США, Японии, Нидерландах и в некоторых других странах, имеющих развитую высшую школу. Таким образом, третий период развития тестов начался с конца 70-х - начала 80-х годов текущего столетия. Он характеризуется подлинно революционным переворотом в научном аппарате, радикальным улучшением качества тестов, высоким уровнем автоматизации процесса тестового контроля и автоматизации процесса обучения, опирающегося на тестовые оценки входного и текущего контроля.

В соответствии с отмеченной периодизацией весь материал данной главы разделен на три части.

2.1. ПРЕДЫСТОРИЯ ТЕСТОВ.

В литературе есть немало указаний на древнее, казалось бы, происхождение тестов. Так, например, T.L.Kelly в своей монографии утверждает, что первые тесты появились несколько тысяч лет назад в Древнем Китае (291;1). Аналогичный вывод относительно времени и места происхожения тестов сделал и другой автор, P.H.DuBois, который указал на некоторые факты использования тестов около четырех тысяч лет назад (254; 3).

Если под тестом понимать испытание, как вероятно понимают эти авторы, то тогда можно найти более ранние данные. В середине III тысячелетия до н.э. в Древнем Вавилоне проводились испытания выпускников в школах, где готовились писцы. Благодаря обширным по тем временам знаниям профессиональный писец был центральной фигурой месопотамской цивилизации; он умел измерять поля, делить имущество, петь, играть на музыкальных инструментах. Во время испытаний проверяли его умения разбираться в тканях, металлах, растениях, а также знания всех четырех арифметических действий (84; 54).

Самый первый дошедший до нас учебник математики XYII века до н.э. - это хранящийся в Британском музее кусок древнего папируса длиною более пяти метров, содержащий 84 задания (48; 36). Кроме этого, сохранились древние папирусы с указанием признаков тех или иных болезней. Позднейшая расшифровка этих записей и анализ их содержания указывают на ложность идей, положенных в основание древней диагностики (252; 127 - 131).

В древнем Египте искусству жрецов обучали только тех, кто выдерживал систему определенных испытаний. Вначале кандидат проходил процедуру, которую можно было бы сейчас назвать собеседованием. При этом выясняли биографические данные, уровень образованности, оценивали внешность, умение вести беседу. Затем проверяли умения трудиться, слушать, молчать, проводили испытания огнем, водой и угрозой смерти для тех, кто не был уверен в своих способностях к учению, кто сомневался в возможности выдержать все тяготы длительного периода образования (207). Поэтому каждому кандидату предлагалось еще раз подумать и, тщательно взвесив, решить - с какой стороны закрыть за собой дверь в храм - с внутренней или внешней.

Сообщается (207), что эту суровую систему испытаний и отбора успешно преодолел в молодые годы знаменитый ученый древности Пифагор. Вернувшись после учебы в Грецию, он основал свою школу, допуск в которую открывал после серии различных испытаний, похожих на те, которые выдержал он сам.

Пифагор подчеркивал важную роль интеллектуальных способностей, утверждая, что "не из каждого дерева можно выточить Меркурия" (82), и потому придавал значение диагностике, в первую очередь, именно этих способностей, что делалось с помощью трудных математических задач. Поскольку такие задачи часто не решались, Пифагор проверял умение поступающего в его школу выдерживать критику и сохранять хладнокровие. Неудачно решившего задачи вводили в зал, где ученики, по правилам испытаний, должны были давать ему обидные прозвища, поднимая его на смех. Если поведение новичка в этой критической ситуации характеризовалось умением отвечать на выпады, хорошо и достойно держать себя, его принимали в школу (там же).

Как считают, Пифагор обращал также внимание на походку и на смех молодых людей, утверждая, что манера смеяться служит самым хорошим показателем характера человека. Он внимательно относился к рекомендациям родителей и учителей, тщательно вел наблюдение за каждым новичком, особенно после того, как последнего приглашали свободно высказываться и, не стесняясь, смелее оспаривать мнение собеседников (207).

В III тысячелетии до н.э. в Китае существовала должность правительственного чиновника. Соответственно, появились и первые элементы профотбора на эту должность. Отбору способствовала атмосфера торжественности и внимания к молодым людям, осмелившимся держать государственные экзамены на занятие по этой должности. В китайском обществе эти экзамены воспринимались почти как празднество: тему экзамена нередко давал сам император; он же проводил непосредственную проверку знаний на заключительном этапе многоступенчатого конкурсного отбора претендентов (254).

Позже, во времена династии Хань (III в. до н.э.), вокруг этого дела заметный размах приобрели коррупция и такие "мелкие" нарушения, как мошенничество, сокрытие некоторых биографических данных, социального положения, сдача экзамена вместо другого лица и др. (247).

Одной из самых распространенных форм диагностики способностей человека в те времена была физиогномика - искусство распознавания характера и способностей человека по его внешнему виду. Гиппократ, впервые употребивший это название, считал физиогномику наукой. Тогда же появились первые учебники и практические руководства по физиогномике, а также и первые, как бы сейчас назвали, специалисты, посвятившие этому делу свою жизнь.

В литературе имеется немало других свидетельств применения множества различных видов испытаний в Древней Греции, и Спарте. В Спарте была создана и успешно осуществлялась система воспитания воинов, в Риме - система обучения гладиаторов. "Люди, - писал Платон, - рождаются не слишком похожими друг на друга, их природа бывает различна, да и способности к тому или иному делу также... Поэтому можно сделать все в большем количестве, лучше и легче, если выполнять одну какую-нибудь работу соответственно своим природным задаткам" (159; 146).

В Афинах обсуждался вопрос о зависимости могущества государства от способностей лиц, им управляющих. В работе Платона "Государство" на вопрос о том, каких правителей нужно выбирать, Сократ отвечает: "Надо отдавать предпочтение самым надежным, мужественным, и по возможности, самым благообразным; кроме того, надо отыскивать людей не только благородных и строгого нрава, но и обладающих также свойствами, подходящими для такого воспитания. У них...должна быть острая восприимчивость к наукам и быстрая сообразительность. Надо искать человека с хорошей памятью, несокрушимо твердого и во всех отношениях трудолюбивого" (159).

Нередко результаты испытания интеллектуальных способностей становились предметом гордости того или иного народа, а иногда служили даже для извлечения доходов. Сообщается, например, что индийский царь Девсарам, желая испытать мудрость иранцев, прислал им шахматы. Предполагалось, что иранцы вряд ли сумеют разгадать суть этой игры, и потому они должны были, по условию, отослать в Индию подать. Однако визирь Важургмихр понял правила игры и, в свою очередь, изобрел игру, называемую сейчас нарды. Эту игру он послал в Индию, и там выяснилось, что разгадать правила игры в нарды индийцы не смогли ( 150 ).

Другим свидетельством использования испытаний являются материалы, излагающие основы религиозного учения чань-буддизма. Учителя чань-буддизма использовали загадки, вопросы-парадоксы, с одновременным созданием ситуации психологического стресса. Отвечать на них необходимо было сразу, на раздумывание не отводилось ни секунды. Как отмечает Н.В. Абаев, в чаньских поединках - диалогах сама парадоксальность постановки вопросов - (например, "была ли борода у бородатого варвара", или "Имеет ли собака природу Будды")- создавала драматическое напряжение, которое усиливалось всем образом действий наставника. Хватая своего оппонента и крича на него: "Говори! Говори! Отвечай немедленно!", он создавал ситуацию психологического напряжения. Чаньские парадоксальные загадки использовались, по мнению этого же автора, в качестве тестов на определенный "чаньский" код мышления. В зависимости от того, как тестируемый неофит отвечал на эти загадки, опытный наставник определял, на каком уровне "просветленности" тот находился и какие меры нужно принять для углубления его чаньского опыта", а также выявлял симулянтов, скрывающих за внешней грубостью и странностью манер свою некомпетентность (1; 9).

В созданном чжурчжэнями государстве Цзинь результаты экзаменов применялись для распределения выпускников медицинского училища. Из числа выдержавших экзамены лучшие поступали на государственную службу в качестве практикующих врачей, преподавателей или исследователей. Худшие выпускники получали разрешение заниматься частной практикой. Не выдержавшим экзамен рекомендовалось либо продолжить подготовку, либо менять профессию (66 ).

Различные конкурсы и экзамены устраивались и в средневековом Вьетнамском государстве. Всего за два года, в период с 1370 по 1372 г. удалось провести переаттестацию всех гражданских чиновников и военнослужащих, что позволило организовать проверку государственного аппарата по всей стране. В результате этого Вьетнам вновь стал сильным и жизнеспособным государством. Особое внимание было уделено созданию боеспособного офицерского корпуса ( 54 ). В ХУ в. экзамены были упорядочены. Они проводились по этапам и турам. Лауреаты получали подарки от короля, их имена вносились в "золотой список", который вывешивался у Восточных ворот столицы, об их победах на конкурсе сообщалось в родную общину. Имена наиболее отличившихся высекались на специальных каменных стелах, установленных в Храме Литературы (там же).

Если использование письменных контрольных работ и экзаменов в странах Востока уже в те годы считалось вполне нормальным и естественным делом, то этого нельзя сказать о странах Запада. Там их применение наталкивалось на трудности психологического характера, вызванные заменой привычных устных форм контроля письменными. Например, в Англии сто лет ушло на слом консервативных традиций, препятствовавших применению письменных контрольных работ в учебном процессе, и еще сто лет на то, чтобы последние начали использоваться на приемных и выпускных экзаменах (238).

Впрочем, были исключения. В той же Англии ценность письменных работ быстрее других оценил Орден Иезуитов, видевший в них эффективное средство мотивации учебы и объективации контроля ее качества. Используя свое влияние, Орден распространил практику применения письменных работ во многих других странах. Ответная реакция на это в первую очередь проявилась в Америке. Сообщается, что там в 1762 г. состоялось открытое выступление студентов Йельского университета против использования письменной формы экзаменов (336), из - за которых, как говорили студенты, им приходится много "зубрить".

Спустя еще сто с небольшим лет (в 1884г.) вышла первая книга с тестовыми материалами, содержавшая задания и ответы к ним с оценкой по пятибалльной шкале. В этой книге содержались задания по математике, истории, грамматике, навигации, давались примерные тексты для сочинений вместе с методом количественной оценки сочинений. Это был первый в истории случай использования простейших статистических расчетов в педагогической работе (344).

Быстро распространявшаяся в США такого рода "дотестовая", как можно её назвать, форма контроля знаний имела не только много сторонников, но и противников. Сообщается, например, о школьном инспекторе из Чикаго, запретившем в 1881г. письменный контроль и обязавшем осуществлять перевод учащихся в очередной класс не на основе проверок, а опираясь исключительно на мнения учителей и директоров школ. Широко распространилось мнение, что никто лучше учителя не сможет оценить способности ученика, и потому всякий контроль, экзамены являются издевательством над здравым смыслом (239). Этим было положено начало широкому движению против какого-либо контроля в школе. Пик такого движения в США пришелся на конец XIX века (1880-е годы), после чего вновь стали появляться предпосылки для формирования благожелательного отношения педагогической общественности к различным формам контроля знаний. Как у нас сейчас, в США тех лет считалось, что знания легче проверять по математике, чем по философии, откуда и проистекает сравнительно большее число заданий по математике, появившихся там к концу XIX века.

Потребность в создании общественно-государственной системы контроля знаний была осознана в США в 1885 году; в штате Нью-Йорк начал действовать так называемый экзаменационный совет, который приложил немало усилий для разработки методов объективного контроля (311;8). Начало общегосударственной оценки знаний положило создание в 1900 году комитета по проверке знаний абитуриентов колледжей в США (там же).

В России конца XIX - начала XX века вопрос разработки тестов и их применения не ставился и не обсуждался. Как свидетельствуют первые отчеты Санкт-Петербургского педагогического общества, еще в 1872-1875гг. шли дискуссии о полезности и вредности оценок. Суть и дух дискуссий передает отрывок из статьи О.Эрна: "...ни по одному из поставленных вопросов члены педагогического общества не смогли прийти к соглашению. Правда, под конец прений защитники баллов готовы были почти уступить своим оппонентам, они соглашались признать, что оценка успехов учеников баллами во многих отношениях неудобна и вносит в школу много нежелательных элементов; они решались даже отказаться от системы отметок, но только под одним условием: они требовали, чтобы им точно и определенно было указано, чем предполагается заменить баллы. ...Так ничем и кончился этот в высшей степени интересный вопрос" (36 ;121). Позиция сторонников изгнания балльной оценки из российской школы отчетливо была выражена словами члена педагогического общества Миропольского : ... "смерть баллам грозит неминуемая; не нынче, завтра, дни их сочтены" (Цит. 36 ;83).

Как отмечает Ш.Амонашвили, участник этих дискуссий К.К.Сент-Илер поставил ряд вопросов, касающихся применения отметок (баллов) в школе. Основным из вопросов был: следует или не следует успехи учеников выражать цифрами(. Определенного ответа на него так и не было получено. Ответ был дан позже, в мае 1918 года, постановлением Народного Комиссариата по просвещению, в соответствии с которым все отметки были отменены. Отрицательные последствия этого постановления были осознаны к 1935 году. В связи с резко возросшей потребностью в специалистах, школьные баллы были вновь восстановлены. Таким образом, резюмирует Ш.А.Амонашвили, послереволюционный опыт обучения без отметок не увенчался успехом (36; 101).

Приведенный здесь краткий исторический экскурс позволяет сделать вывод о необходимости рассматривать испытания как важную и неотъемлемую часть общественной жизни многих - если не всех - народов мира, со времен древнейших цивилизаций и до наших дней. Однако, можно ли на основании приведенных данных говорить о раннем историческом периоде возникновения тестов. Если согласиться с наиболее известными сейчас определениями теста, даваемыми, напомним, как перевод с английского слова "test" (испытание, проверка, проба), то на поставленный вопрос надо будет ответить утвердительно. А если не согласиться?

Случай с тестами дает классический пример совпадения вещей по видимости и их различий по существу. Различия начинаются с рассмотрения основного понятия. В философии сложилась традиция рассмотрения научных понятий с двух противоположных позиций. Как отмечал Б.М.Кедров, каждое понятие может быть зафиксировано, во-первых, как сложившееся, готовое на данный момент времени, а потому как неизменное, постоянное.

Во-вторых, научные понятия могут и должны быть рассмотрены исходя из того, что они выражают и резюмируют собой на каждом этапе определенную ступень развития науки. В результате складываются две логические схемы: формальнологическая, оперирующая относительно неизменными, готовыми понятиями, и диалектологическая, оперирующая изменчивыми, развивающимися понятиями (110).

Если встать на формально - логическую точку зрения, то тогда следует согласиться с P.H.DuBois в том, что тесты появились в глубокой древности. Если же на тесты смотреть не только как на общественно-культурный, но и научный феномен, то надо признать, что рассмотренные в этом параграфе формы и методы проверки представляют, по существу, протонаучные попытки оценки человеческих способностей.

Только в Новое время возникло мышление рефлексивного типа, обращенное к поиску адекватного метода и обоснованию его собственного качества. "Уж лучше совсем не помышлять об отыскании каких бы то ни было истин, - писал Р.Декарт, - чем делать это без всякого метода" (85). Именно Р. Декарту мы обязаны поворотом научной мысли на средства познания, появлению и постепенному утверждению в науке конца XIX века. Того типа рефлексии, который Э.Г.Юдин называл методологизмом (210).

Можно думать, что поиск адекватных методов исследования личности явился тем необходимым условием, породившим попытки научно осмыслить качество используемых испытаний. Такие испытания Ф.Гальтон и его последователи назвали тестами, оговорив первые требования, которым они должны соответствовать. Это были критерии надежности и валидности, подробно изученные в классический период становления теории и практики тестового контроля. Краткое содержание того и другого критерия представлено здесь в разделах 5.1 и 5.2.