2.2. КЛАССИЧЕСКИЙ ПЕРИОД
Классическим периодом развития тестового контроля можно назвать время с конца XIX века до середины нашего столетия. Это период появления первых научных исследований, положенных затем в фундамент развившейся позже теории тестов, названной классической. Поскольку предметом этой теории являются принципы и методы создания тестов, она стала главной в деле создания тестов, сбора и статистической обработки тестовых материалов, применения тестов в прикладных исследованиях проблем профессионального отбора и профориентации. Эта теория интенсивно развивалась и использовалась вплоть до 70-х годов. Поэтому вполне естественно этот период развития тестов назвать классическим, используя последнее определение в смысле связи с упомянутой теорией.
Становление классической теории тестов началась в период революционного изменения общественного сознания, совпавшего, по времени, с научным кризисом, поразившим естествознание. К началу XX в. практические потребности изучения способностей были сформулированы в виде важной для педагогики и психологии проблемы исследования индивидуальных различий. Эта проблема и дала импульс к появлению первых тестов. Известный английский ученый F.Galton в 1884-1885 годах провел серию испытаний, в которых посетители лаборатории в возрасте от 5 до 80 лет могли, за небольшую плату, проверить свою силу, быстроту реакции, ряд физиологических возможностей организма и психических свойств, показатели роста, веса, жизненной емкости легких, становой силы, силы кисти и удара кулаком, остроты зрения, а также способности запоминать буквы, различать цвета и другие. По полной программе было обследовано 9337 человек (254).
Гальтон отмечал, что практика вдумчивого и методиче ски упорядоченного тестирования - не фантазия: она требует анализа и эксперимента (266). Это был существенный отход от тысячелетней практики испытаний и проверок, основанных на интуиции. Применительно к тестам, значение деятельности Гальтона можно сравнить с тем, что сделал для физической науки своими остроумными экспериментами Галиллей. Набиравший силу радикальный эмпиризм рассматривался рядом ученых конца XIX века как приемлемая альтернатива идеализму, а эксперимент - как настоящий фундамент науки. Хотя не все аппаратурные испытания Гальтона можно назвать тестами, с позиции сегодняшнего дня, его заслуга состоит в том, что он сделал первый шаг на пути создания объективных методов контроля; он изобрел аппаратуру и технические приспособления, регистрирующие интересующие свойства личности, утвердив, тем самым, важность экспериментальной формы сбора данных.
Другим вкладом Гальтона является выдвижение идеи регрессионного и корреляционного анализа. Сопоставляя по осям абсцисс и ординат средний рост родителей с ростом их взрослых детей, он обнаружил естественный факт - чем выше был рост родителей, тем выше, в среднем, оказывался рост детей.
Но далее он заметил, что у очень высоких родителей дети были, как правило, несколько ниже, в то время как у родите лей ростом ниже среднего, дети оказывались несколько выше. Поскольку здесь проглядывало явное стремление потомства к среднему росту, эта тенденция была истолкована им в качестве общего закона природы, закона сохранения вида, и названа "регрессией к среднему" (266).
На рубеже XIX-XX веков под непосредственным влиянием Гальтон начал свои математико - статистические исследования в области теории тестов K. Pierson. Он стал автором первых методов корреляционного, регрессионного и факторного анализа. Создание коэффициента корреляции, а вслед за этим и теории корреляции, принципиальным образом повлияло на становление теории тестов. Первая теория легла в основу второй. Корреляция стала использоваться для обоснования надежности и валидности тестов; посредством коррелирования тестовых результатов с внешним критерием стало возможным получение информации о мере связи результатов теста с критерием. Это было самое первое представление о валидности теста. Поразительный успех предложенных K.Pierson методов привел к тому, что созданный им статистический аппарат для обработки тестовых данных стал затем использоваться в большинстве других наук. Это был первый, но не последний вклад зарождавшейся теории тестов в общенаучную, исследовательскую и методическую культуру. Помимо классического коэффициента корреляции, K.Pierson предложил формулы расчета коэффициентов частной и множест венной корреляции, широко используемые при разработке тестов (319).
Введение в научную практику стандартизованной меры связи между оцениваемыми свойствами явилось важным методическим средством отображения в прикладных науках диалектического подхода - от сбора отдельных фактов к установлению количественной связи между ними, с последующим качественным анализом. И хотя установление связи являлось только первым шагом на пути причинного истолкования взаимозависимости явлений, это был, тем не менее, заметный шаг вперед в общей методологии научного исследования.
J.McK.Cattell вероятно первым увидел в тестах средство измерения, казалось бы, неизмеряемых свойств личности. В работе, опубликованной в 1890 г., он дал список 50 лабораторных, как он называл, тестов. Они отвечали только двум из известных сейчас требований к тестам: имелась стандартная инструкция по их применению и подчеркивался научно - лабораторный характер испытаний. В частности, указывалось, что лабораторию следует хорошо оборудовать, во время тестирования в нее не допускаются зрители; все испытуемые одинаково инструктируются, они должны хорошо усвоить, что и как нужно им делать. Кроме того, делались рекомендации по подсчету баллов (244). Большинство заданий J. McK.Cattell и F.Galton можно было бы сейчас назвать психомоторными тестами. Появление же первых тестов учебных достижений D.E.Scates связывает с именем J.M.Rice, опубликовавшего свою работу в 1897 году. (Cit. in 331).
Надо ли говорить, сколь непривычной оказалась идея измерения для педагогики конца XIX - начала XX века. Измерение с помощью тестов казалось тогда, а многим педагогам - гуманитариям кажется и по сей день, делом если не странным, то претенциозным. Обыденное сознание исходило при этом из аналогии с физическими измерениями и рассматривало эти попытки как математизацию, как чуждый для гуманитарной педагогики уклон.
Начиная с первого десятилетия XX века, обыденное представление о тесте и его научное определение стали заметно отличаться друг от друга. Хотя всякий тест включает в себя задания, как элементы испытаний, он не сводится только к этому, ибо это сейчас метод исследования, включающий в себя ряд чисто научных требований. На каждом этапе развития науки требования к тестам и сами тесты менялись. Игнорирование этого диалектического момента нередко приводило к упрощенчеству в оценках тестов. Упрощенчество проявлялось, главным образом, во взглядах на тест как на средство, рядоположенное с другими распространенными формами оценки знаний - такими как, например, зачет, экзамен. Но это неверно. У тестов есть свойства, выгодно отличающие их от всех остальных форм контроля.
В начале XX века во Франции была сделана первая попытка измерения интеллектуальных способностей детей. Авторы созданного для этой цели теста А. Бине и Т. Симон (227) провели эмпирическую проверку заданий, претендующих на включение в тест. В роли основного критерия качества заданий использовалась информация о реальной трудности каждого задания для детей разного возраста, а также информация о степени совпадения результатов с мнением преподавателей. С целью достижения сопоставимости результатов, полученных разными исследователями, авторы приложили к тесту стандартную инструкцию, призванную минимизировать индивидуальные расхождения в процессе тестового контроля.
Интересен метод отбора тестовых заданий, которыми пользовались А.Бине и Т.Симон для выявления дифференцирующей способности заданий. Последние опробывались на разновозрастной группе испытуемых. Результаты ответов на каждое задание представлялись в виде точек на плоскости, где по оси абсцисс откладывался возраст, а по оси ординат - доля правильных ответов в каждой возрастной группе. Соединяя полученные точки, они получали ломаные линии, по которым и судили о качестве тестовых заданий. Спустя примерно семьдесят лет эта идея построения линий - геометрических образов тестовых заданий получила развитие в Item Response Theory. Математический аппарат этой теории позволяет отвлечься от случайных флуктуаций, проявляющихся в кривых, построенных по эмпирическим данным и представить зависимость между уровнем знания и вероятностью ответа в виде гладкой кривой.
Решающий вклад в развитие теории тестов сделал C.Spearman. Он соединил теорию физических измерений с корреляционными методами и с идеей психологического измерения, заложив, тем самым, фундамент классической теории тестов; последняя оказалась применима также в социологических и в педагогических измерениях. Он предложил метод оценки надежности тестов посредством разделения теста на две части с последующим коррелированием результатов испытуемых по этим частям (337).
Такой же метод предложил и W.Brown, опубликовавший свою статью в том же номере журнала, где была напечатана и статья C.Spearman (237). Этот исторический факт и объясняет причину появления двойного имени Spearman - Brown у предложенной ими формулы для определения надежности теста. В это же время появилась первая теоретическая работа, посвященная анализу вопроса валидности, хотя это понятие для определения качества теста в то время еще не использовалось; вместо него употреблялось понятие "доверие к результатам теста" (245).
Первая мировая война активизировала разработку тестов для определения профессиональной пригодности и для ускоренной подготовки лиц, обладающих нужными для военного дела знаниями и навыками, интеллектуальными и физическими качествами.
Интенсивное техническое перевооружение промышлен-ности ведущих капиталистических государств в начале XX века актуализировало проблему "человек - техника". Все острее стала осознаваться мысль о том, что не каждый желающий сможет управлять сложными техническими устройствами: для этого необходимы знания, способности и соответствующие навыки, а значит, нужны тесты, профессиональный отбор и профессиональная подготовка. По данным английской статистики, в первую мировую войну только 2% потерь авиации были связаны непосредственно с боевыми операциями; 8% было потеряно из-за дефектов материальной части, а больше всего - 90% потерь было вызвано профессиональной непригодностью тех, кто пилотировал самолеты (136).
Война существенно обострила интерес к вопросам соотнесения способностей человека с требованиями профессий. "Всем стало ясно,- писал в те годы Г. Мюнстерберг, - что никакая расточительность ценных благ не носит столь пагубного характера, как расточительность...живых сил народа, распределяющихся в полной зависимости от случая... совершенно не обращается внимание на необходимое соответствие между трудом и работником" (141). Тем самым была подготовлена почва для развертывания научно-исследовательских работ по тестовым методам оценки личности. В США был создан первый вариант так называемого группового теста, который позволял быстро оценить пригодность призывников к воинской службе в различных родах войск. Созданный тест рассматривался как тайное оружие, поэтому все испытания, масштаб исследований и результаты не разглашались. На основании этих исследований производилось отчисление "негодных лиц", назначение на "черные работы" неспособных к строю, комплектование унтер-офицерских и офицерских школ, выравнивание частей по уровню интеллектуальности, набор в специальные части и т.п. (90)
Первые педагогические тесты, появившиеся в начале XX века, быстро завоевали популярность среди преподавателей вузов и школ Англии и США (249), а позже в России и СССР. Вместе с тем, тесты вызывали настороженное к себе отношение у сторонников "чистой", без тестов, педагогической науки и практики. Такая же настороженность проявлялась и по отношению к педологии. Появление в это время нового прикладного направления - педологии - не было исторической случайностью. Это было неизбежно, как появление других прикладных наук. Хотя педология претендовала на статус фундаментальной науки о комплексном развитии ребенка она, если судить по ее методам и результатам, была все-таки прикладной педагогикой, необходимо дополнявшей тогдашнюю отечественную педагогику в ее самом слабом месте - в связи науки с практикой образования и обучения. Однако вместо сотрудничества педагогики и педологии началось политическое избиение последней, окончившееся не научной, а политической же "победой" сторонников "чистой" педагогики. Педология стала первой в списке наук, которые позже назовут репрессированными (156).
В те годы были, однако, и другие выступления - в пользу тестов. Так, известный психолог М.Я.Басов говорил: "Я думаю все же, что эта долгая, подчас острая критика тестовой методики ... в конце концов приведет не к ниспровержению, не к упразднению этой методики, а напротив, к ее упрочнению и к ее утверждению в определенных границах, в которых она, очевидно, имеет полное право на применение и существование" (50; 64).
Поскольку в те годы тесты получили признание и развитие только в рамках прикладных направлений - педологии и психотехники, размежевание этих направлений с педагогикой и психологией проходило, в первую очередь, по отношению к тестам. Помимо этого, обе стороны вели затяжные дискуссии со взаимными обвинениями. Педагогика и психология обвинялись в схоластике, узком академизме, в неспособности воспринять новое и в отрыве от практики. Прикладники, в свою очередь, осуждались за узкий практицизм, противоречащий духу науки, за отрыв от педагогики, психологии; они обвинялись также в голом эмпиризме, подражании западным образцам и в чрезмерном увлечении тестами.
Разрыв между фундаментальным и прикладным направлениями был до недавнего времени характерен для многих других наук, но не везде он протекал столь болезненно, как в педагогике. Для представителей "чистой науки" прикладность не имела заметной ценности. В 30-х годах ученые Кембриджа, как вспоминает Ч. Сноу, больше всего гордились тем, что их научная деятельность ни при каких мыслимых обстоятельствах не может иметь практического смысла (181). Методы и результаты педологии лежали в сфере прикладной деятельности, в то время как усилия традиционной педагогики были направлены на создание общей теории.
Эти же годы характеризуются широким использованием тестов в других странах. Во Франции они стали применяться для дефектологических целей и для профориентации, в США тесты использовались при приеме на работу, в вузы, для оценки знаний школьников и студентов, для проведения социально - психологических исследований. В 1938 году была сделана первая попытка объективно сравнить знания студентов различных колледжей штата Пенсильвания (299; 8). Но и критика не успокаивалась. Она начинала приобретать все более широкий размах и выходить за рамки чисто научных дискуссий.
В печати появился ряд публикаций, в которых тесты отвергались, как говорится, с порога. В США, например, против использования тестов выступали представители основных групп населения - взрослые и дети, белые и негры, рабочие и управленческий персонал, а также представители национальных меньшинств. Исследования по социальным последствиям тестирования выяснили, что 37% опрошенных возражали против использования тестов при поступлении на работу, 50% - при продвижении по службе, 25% - против использования тестов в школе (236 ).
Случаи нарушения этики в использовании тестов оказались столь злободневными, что ими вынужден был заняться конгресс, устроивший специальные слушания по этому делу. В результате было принято решение, осуждающее неэтичное использование тестов (219). В августе 1966 г. в сенате США обсуждалось предложение о полном запрещении тестов, но это предложение не было поддержано большинством.
В зарубежной литературе выделяется несколько источников критики тестов. Первый источник O.Brim усматривает в личностном портрете критиков. В числе последних чаще других оказываются те, кто не склонен к интроспекции, авторитарен в межличностных отношениях, нетерпим к мнению других и возражает против всяких социальных перемен. Как правило, в США эти лица примыкают, как он считает, к правым политическим группам, требующим запрещения тестов. Второй источник критики этот же автор видит в системе социальных ценностей, имеющей свои корни в отношении к вопросам равенства людей. Если в обществе одобряется принцип открытого соревнования его членов, то в каждом поколении на передовые позиции выдвигаются наиболее талантливые люди. В таком обществе каждый имеет возможность внести свой вклад в соответствии со своими способностями. Последние должны быть оценены, и потому ориентация на этот принцип создает благоприятное отношение к тестам (236). Третий источник, по мнению R.B.Cattel, является следствием эмоционального и сентиментального отношения людей эстетического и нарцисстического типа ко всякой попытке представить "уникальную, художественную личность", как он пишет, в виде формул и т.п. Четвертый источник критики явля ется научным и касается недостатков самого тестового метода.
В США критика тестов не прекращалась никогда, так же, как работа над их усовершенствованием и применением. По имеющимся данным, в этой стране большинству населения (90%) по меньшей мере один раз в жизни приходится тестироваться. Каждый год знания и способности учащихся проверяются там с помощью 47 миллионов тестовых бланков, выпускаемых примерно 400 тестовыми компаниями (341; 46). Среди последних имеются как мелкие, так и крупные, причем самая крупная - это ETS ( Educational Testing Service). Ежегодной проверкой интеллектуальных способностей и знаний подвергаются практически все студенты высших и учащиеся средних учебных заведений. От результатов этих проверок зависит как престиж вуза, так и количество денег, отпускаемых заинтересованными фирмами на подготовку специалистов в том или ином вузе. Каждый вуз старается привлечь к себе тех абитуриентов, у кого тестовые показатели оказались сравнительно выше. Приводятся цифры: в течение 1977-1978 гг. тестовый контроль прошли 1.488.300 студентов (там же).
Практика, как это часто бывает, опережала теорию. Массовые тестовые обследования не подкреплялись серьезной проверкой качества инструментария, решения о переводе некоторых учащихся в классы для умственно отсталых детей принимались на основе несовершенных тестов, без учета других факторов, влияющих на результат проверки. В промышленности на основе таких же тестов делались попытки классификации работников по различным профессиям, без внимательного учета личных склонностей и интересов.
В условиях авторитарно управляемого общества любой случай неправильной практики применения тестов легко идентифицировался с ошибочностью самого тестового метода. Положительные примеры их применения во внимание не принимались. Подобная ситуация имела место в период между 1931 и 1938 годами и затем повторялась (не в столь тяжелой форме) и в последующие периоды.
Тесты применялись в двух основных сферах: в образовании и в сфере профотбора-профориентации. Затронутые тестами столь важные сферы жизни и прямое влияние результатов тестового контроля на судьбы миллионов людей породили широкую гамму мнений в пользу и против тестов. Большой энтузиазм тех, кто их применял, и не меньший пессимизм тех, кто видел несовершенство этого метода или пострадал в результате его неправильного использования, породили во многих странах, в том числе и в СССР, письма в правительственные органы и в газеты с требованием запрета тестов.
Застой в разработке тестов и их применении продолжался около сорока лет - с середины 30-х до конца 70-х годов, после чего вновь стали появляться публикации по этой проблеме, направленные как в пользу тестов, так и против них. Типичные аргументы оппонентов тестового метода сводились, в обобщенном виде, к следующим утверждениям:
- тесты используются в капиталистических странах, где с их помощью решаются вопросы расовой и классовой дифференциации;
- применение тестов унижает достоинство личности, особенно в случаях, когда получаемые баллы оказываются ниже среднего уровня;
- никакие методы измерения не могут заменить преподавателя и его личный опыт;
- в педагогике нет и не может быть точной единицы измерения, и потому не следует терять время, силы и средства на разработку неточных методов.
Эти утверждения легко опровергаются. Во-первых, тестовые методы не призваны заменять преподавателя и его личный опыт, а наоборот, призваны помогать ему, освободив его от рутинной работы и дать, тем самым, ему возможность сосредоточиться на повышении качества преподавания. Во-вторых, хотя точность педагогических измерений и не может сравниться с точностью физических измерений, преимущества первых, тем не менее, достаточно очевидны, они описаны повсеместно.
Что касается применения тестов для целей расовой и классовой дифференциации, то вряд ли здесь надо винить тесты. Как всякое средство, они могут быть использованы в пользу или во вред, в зависимости от идеологии, политики, компетенции, целевых установок и т.п. И, наконец, о возможном унижении достоинства личности, наклеивании ярлыков и т.п. Все это имеет место не только в случае применения тестов, но и в других ситуациях. Для предотвращения неприятных последствий такого рода разработаны специальные правила обращения с тестами и испытуемыми, в которых все возникшие вопросы этического характера предусмотрено решать в пользу личности. Соблюдение этических норм является непременной частью профессиональной подготовки тех, кто работает с тестами.
Хотя в тридцатых годах практическая работа по тестам затормозилась, научное изучение действительных возможностей этого метода в нашей стране полностью не прекращалось. Часть тестов применялась под видом контрольных заданий, испытаний; и наоборот, различные испытания нередко назывались тестами.
В эти же годы, за рубежом сформировались три основных методических подхода к определению надежности теста. Это - повторное тестирование, использование параллельных форм одного и того же теста и, наконец, однократное тестирование с последующим разбиением матрицы исходных результатов на части.
Помимо надежности в понятие "тест" входит и концепция валидности. Последняя начиналась с наивного предположения о том, что метод "работает"; при этом каждый создаваемый тест рассматривался как валидный, примерно так, как если бы каждое создаваемое задание непременно годилось бы для решения поставленных задач. Первые же проявления действительно научной критики развенчали эту, по сути, наивную веру в валидность. Они же стимулировали поиск. Привлечение к созданию тестов известных ученых было гарантией убедительности обоснования валидности как бы по авторитету. Но это был дотеоретический, доэмпирический и, по существу, донаучный этап оценки качества тестов. Поскольку тесты разрабатывались тогда исключительно для решения практических проблем, эмпиризм и соответствующая ему методология стали главными для обоснования качества инструментария. Это особенно проявилось в создании тестов для профотбора, профориентации, профконсультации.
Выделялись два эмпирических подхода к валидизации тестов. Первый - прогностический. Его логика такова: если те, кто хорошо работают (по критерию Y), показывают хорошие результаты и по какому-либо тесту (Х), то значит здесь есть связь, быть может, и причинная. Иначе говоря, результаты в Y зависят, в вероятностном смысле, от Х. Отдавая предпочтение при приеме на работу тем, у кого выше результаты по Х, надеялись, что они покажут и более высокую производительность труда по Y.
Ожидания такого рода часто сбываются, но в различной степени, в зависимости от валидности Х по Y. Другой подход к эмпирической валидизации тестов основан на использовании экспертных оценок. Здесь логика еще проще - если эксперты (множество авторитетов) согласованно считают одних более способными, других - менее, значит "это так". В случае, когда результаты теста указывают на сходную тенденцию, когда данные по тесту коррелируют с данными экспертизы, принимается, что тест валидный и его можно далее применять и в других подобных ситуациях. Так проводилась валидизация первого теста для измерения интеллектуальных способностей (227 ), а в наше время - работа по валидизации тестов для измерения социальных потребностей молодежи, где автор этой работы принимал непосредственное участие ( 9 ).
В классической теории тестов авторы исходят из идеи параллельного измерения интересующего свойства с помощью двух и большего числа тестов, имеющих общее предметное содержание и сходные статистические характеристики. В рамках этой теории приняты следующие постулаты (295, 391, и др.) :
1. Эмпирически получаемый результат измерения X представляет собой сумму истинного компонента измерения T, обычно неизвестного, и ошибочного (e), также неизвестного
X = T + e.
2. Истинный компонент измерения можно выразить как математическое ожидание (X)
T = E (X)
3. Ошибочный компонент измерения представляет собой результат влияния случайных ошибок. Среднее арифметическое этих ошибок принимается равным нулю. Дисперсии ошибочных компонентов измерения параллельными тестами равны.
4. Корреляция истинных и ошибочных компонентов по множеству испытуемых равна нулю; rTe = 0,
5. Ошибочные компоненты двух любых тестов не коррелируют, что записывается в виде reiej = 0, где индексами i и j обозначаются любые два теста.
6. Ошибочные компоненты одного теста (i) не коррелируют с истинными компонентами любого другого (j) параллельного теста; reiTj = 0
Помимо этого, основу классической теории тестов составляют два определения - параллельных и эквивалентных тестов. Параллельные тесты должны соответствовать постулатам (1 -6); истинные компоненты одного теста должны равняться истинным компонентам другого теста в каждой выборке испытуемых. Помимо равенства истинных компонентов Ti = Tj, принимается равенство дисперсий тестовых баллов.
Эквивалентные тесты соответствуют всем требованиям параллельных тестов, за исключением одного специфического признака эквивалентности: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на постоянное значение. Условия эквивалентности измерения по двум тестам записываются в виде
Ti = Tj + cij, где cij - константа различий результатов первого и второго теста.
Отмеченные постулаты, принципы, критерии качества и статистические методы и явились главным итогом развития классического периода теории тестов. В СССР практика тестирования этого периода характеризовалась серьезными противоречиями: по мере роста числа тестов и тестовых исследований имели место попытки торможения и даже запрета в работе по применению тестов в сфере образования, профотбора и профориентации. Этот запрет так и не был официально отменен. Его отменила сама жизнь.
В то время как в нашей стране обсуждался вопрос быть тестам или не быть, в США ставились другие вопросы - как повысить качество тестов, как сделать результаты тестирования независимыми от группы испытуемых и от того или иного набора заданий (Именно эти вопросы, поставленные в зарубежной тестовой литературе, дали толчок к поискам новых методов. Эти методы рассматриваются в третьей части этой главы.