1.3. ПОСТАНОВКА ИССЛЕДОВАТЕЛЬСКИХ ЗАДАЧ

1.3.1. Исследование истории возникновения и развития тестового контроля. Используемый здесь историко-философский подход к исследованию общественных явлений и науки отчетливо проявился в трудах Гегеля. Этот философ подчеркивал, что всякое данное явление следует рассматривать как развившееся, как ставшее, и что высшая форма, как результат развития явлений, не существует без пути развития; следовательно, для познания итога следует воспроизвести ход развития явления, последовательную смену пережитых им фаз (71; 109); "не результат есть действительное целое, - говорил Гегель, а результат вместе со своим становлением"(70; 2). Развивая эту мысль, Е.С.Кузьмин и В.А. Якунин отмечают, что без истории не может быть создана какая-либо строгая научная теория, и что в определенном отношении всякая современная теория есть свернутая и обобщенная её история (123; 5).

Как написано в американской энциклопедии педагогических исследований, мало-мальски полная история педагогических тестов еще не написана (290; 778), хотя отдельные фрагменты уже написаны (237, 238, 243, 254, 291, 311, 315, 336, и др).

Один из спорных вопросов, обсуждаемых в зарубежной литературе - это время возникновения тестов. Здесь мнения исследователей заметно расходятся. P.H.DuBois (254) и T.Kelly (291) считают, что тесты возникли более четырех тысяч лет назад. Автор настоящей работы в своих публикациях называет другое время - конец XIX - начало XX века (12, 21, 22, 26). Попытка определения точного времени возникновения теста напоминает попытки географов определить точное начало большой реки, вытекающей из обширного болота. Примерно так же обстоит дело и в историческом исследовании. По нашему мнению, для изучения истории возникновения тестов вначале требуется изучить предысторию - то самое болото, из которого вытекает подлинная история тестов.

В литературе по истории тестов доминируют вопросы возникновения психологических тестов. И хотя в работах A.Anastasi (220), J.B.Carrol (243), P.H.DuBois (254), и др. Есть определенные указания на применение педагогических форм контроля, в целом приоритет отдается психологическим тестам. Причина такого психологического уклона в исторических исследованиях лежит, во - многом, в ошибочной идентификации понятий "психологический" и "педагогический тест"; соответственно, не делается разницы и между историей этих тестов. Вот почему в настоящей работе, посвященной педагогическому контролю, ставится задача исследования истории педагогических тестов, вовлекая в анализ тот психологический материал, который связан с педагогическим тестированием.

Анализ данных отечественной и иностранной литературы убеждает в отсутствии согласованных взглядов в вопросах возникновения тестов, периодизации тестового процесса и роли тестов в разные периоды общественного развития. Устранение этого пробела требует постановки и решения специальной задачи.

Исследование вопросов истории и развития тестов связано с необходимостью дать какую-либо периодизацию развития тестового контроля. Первый период назван нами предысторией тестов; исследование этого периода проводится в первой части главы. Период становления тестов на основе так называемой классической теории тестов, назван по аналогии с этим классическим периодом; он исследован во второй части. И, наконец, современные математические модели тестового педагогического контроля, не исследованные в нашей стране, стали предметом исследования в третьей части.

1.3.2. Основы теории тестового педагогического контроля. Из широкого спектра вопросов теории тестов в данном исследовании рассматриваются только те, по которым нет пока согласованных точек зрения, ни в отечественной, ни в зарубежной литературе. Это ключевые вопросы определения теста, содержания и формы тестовых заданий.

Спорное положение сложилось с определением основного понятия "тест". В отечественной литературе это понятие чаще всего рассматривается как перевод с английского слова "test", (проба, испытание, проверка). При этом тест определяется без указания на его существенные признаки, как требует того научная логика. Хотя тест включает в себя элемент испытания, он не может весь сводится к нему, ибо это еще и концепция, это определенное содержание, это форма, результаты, и отчасти, интерпретация данных - все, требующее научного обоснования.

На каждом этапе развития науки менялись требования к тестам, менялись и они сами. Игнорирование этого диалектического момента приводит к упрощенчеству в теории и к профанации тестов на практике. Между тем, естественная для обыденного сознания подмена научного понятия элементарным переводом слова создает немало трудностей в теории и практике. В теории это приводит к засорению понятийного аппарата науки словами обыденной речи, не имеющими заметного научного содержания, а в практике - к подмене тестов любой формой проверки, ошибочно называемой тестовой. Примерно так обстоит дело и с переводом слова "test".

Словосочетание "тестовый контроль" может показаться непривлекательным из-за того, что тест это и есть, в переводе, контроль. Но здесь слово "тестовый" используется в функции прилагательного, выделяющего из множества возможных форм контроля именно тестовый. Конечно, было бы лучше вместо этих двух слов использовать одно - тестирование. Но и с этим понятием имеются свои трудности. В педагогической литературе 30-х годов оно также было осуждено и продолжает, судя по литературе, оставаться таковым. Заслуживает упоминания еще одно словосочетание - тестовый педагогический контроль, в котором слово "педагогический" позволяет определить сферу контроля. Без этого уточнения могут возникать ассоциации с психологическим, социологическим, техническим, медицинским и другими видами тестового контроля.  В случае с определением теста замысел исследования состоит в попытке создания эффективного определения, которое включало бы в себя ключевые признаки распознавания теста от всего остального, что часто выдается у нас за тест.

Второй ключевой вопрос - это содержание теста и тестовых заданий. В отечественной литературе нет прочных традиций исследования их содержания, но есть интересные работы по методам анализа содержания контрольных заданий, учебников и других учебных материалов. Одна из первых попыток классификации учебных задач по критерию их содержания была предпринята в работе Н.Н.Крюковой (122; 33-35). Отмечается, что содержание связывает два начала: научное и учебное. Научное начало отражает процесс развития науки и ее применимости; учебное - обусловливает все то, что формирует систему знания (188; 193). Научное начало составляет содержание в виде основных компонентов: фактический материал, отражающий признаки и свойства предметов, явлений; обобщенные результаты общественно-исторического познания мира - понятия законы, принципы, основные мировоззренческие взгляды, идеи, ведущие научные теории и др. (97; 63). Там же учебный предмет определяется как дидактически обработанная система знаний, умений и навыков, выражающих содержание той или иной науки.

По мнению В.С.Безруковой, в учебные задачи по любой дисциплине включают, как минимум, три крупных блока: аналитический, (анализ фактов, событий, предметов, явлений - с целью обнаружения общих и частных свойств и отношений); синтетический (воссоздание из частных свойств конкретного объекта познания как специфической его "клеточки); интеллектуальный (обнаружение способа построения объекта познания (51; 62-63).

Заметный вклад в анализ содержания учебных текстов внесли В.С.Леднев, Д.М. Матрос, В.М. Монахов, А.М.Сохор и др. авторы. Предложенные ими методы выделения основных элементов учебного материала в некоторой мере применимы для отбора содержания тестовых заданий с учетом особенностей тестовой формы. Мера применимости является одним из неисследованных вопросов в педагогической литературе.

Причиной такого пробела является не исследованность вопроса взаимосвязи содержания и формы тестовых заданий. Форма накладывает некоторые ограничения на выражение содержания; или иначе, не всякое содержание можно выразить в форме тестовых заданий. Правда, такие же трудности возникают и при формулировке традиционного контрольного материала. Эти трудности обычно преодолеваются созданием заданий, содержащих подвопросы, условия и т.п. Дело, следовательно, состоит не столько в исследовании содержания теста, как и любого другого контрольного материала, сколько в изучении специфической тестовой формы, обеспечивающей взаимосвязь между содержанием и формой.

Отсюда вытекает и необходимость исследования не только содержания, но и формы теста и тестовых заданий. В отечественной и иностранной литературе нет единства не только в отношении числа форм тестовых заданий, но и в отношении их названий. Кроме того, понятия форма, вид, тип теста (задания) почти повсеместно употребляются как равнозначные. Еще сложнее обстоит дело с определением специфических свойств и требований, позволяющих четко отличать одну форму от другой. Отсутствие признаков демаркации теста от всего остального контрольного материала препятствует созданию новых форм, классификации уже имеющихся, мешает созданию понятийного аппарата этой малоисследованной сферы педагогической науки.

Если не считать методических пособий, то в мировой литературе практически не обнаруживаются исследования, специально посвященные анализу вопросов формы тестовых заданий. Уникальным исключением является лишь работа Г.С.Костюка, названная так: "О зависимости результатов тестирования от формы теста (115;129-144). "Форма теста, - писал он в 1928 г., - является одной из тех проблем тестирования, научное изучение и разрешение которых чрезвычайно важно и неотложно. Форму теста Г.С.Костюк определял как способ предложения заданий испытуемым и связанный с ним способ заполнения теста (115;129). Ценность работы Г.С.Костюка заключается, помимо прочего, в проведенной им экспериментальной проверке качества информации, полученной по двум сравнивавшимся формам - открытой и закрытой.

Увлечение разработкой вопросов содержания и почти что полное игнорирование форм породили ситуацию, заключающуюся в том, что сборники упражнений и задач в различных методических пособиях содержат слишком мало таких заданий, которые можно было бы эффективно использовать в автоматизированных системах обучения и контроля. Мало внимания уделяется вопросам формы и в зарубежной методической литературе. Исключением являются работы (249, 258, 260, 264, 316, и др.), где авторы рассматривают задания трех форм - закрытой формы, открытой, и задания на соответствия.

А.Г.Молибог считает, что предложение в заданиях закрытой формы готовых ответов на выбор снижает самостоятельность и творчество студентов, из - за того, что гораздо легче выбрать готовый ответ, чем самому его сформулировать. Отмечается, что выбор готового ответа соответствует лишь первому как он называет, "уровню построения информации". Поэтому метод выбора ответов может быть использован лишь при изучении описательного и ознакомительного материала (140; 196).

Этот пример критического отношения к закрытой форме показывает, что обычный для литературы угол рассмотрения вопросов формы - это влияние числа ответов на обоснованность тестового балла. В зарубежной литературе предлагаются формулы коррекции баллов, призванные повысить обоснованность каждого тестового результата. Сама же формула коррекции построенная на основе вероятностных соображений, приводится повсеместно (347 и мн. др.).

В качестве приема, существенно уменьшающего вероятность случайного угадывания правильного ответа в заданиях закрытой формы, с выбором ответа, Н.М.Розенберг предлагает представлять задание двумя (или более) частями; каждый такой "подвопрос" сопровождается серией ответов, причем лишь совпадение правильных ответов на все "подвопросы" позволяет считать соответствующий материал усвоенным. По его мнению, дидактическая ценность сдвоенного вопроса состоит еще и в том, что первая часть задания требует от ученика лишь выбора одного из предлагаемых ответов, а вторая - обоснования справедливости выбора (171 ;50-51).

В западной тестовой литературе отношение к сдвоенным заданиям совсем другое; оно отрицательное. Такие задания там не рекомендуется включать в тест по причине детерминированности ответов во втором задании в зависимости от выбранного ответа в первом. F.M.Lord считает, что такие сдвоенные задания, называемые им цепными, находятся в противоречии с так называемой аксиомой локальной независимости, положенной в основу конструирования шкалы (306). Подчеркнув важное значение формы тестовых заданий и ответов, Н.М.Розенберг дает свою, по его терминологии, типологию заданий (171;78-82). И хотя рассматриваемые при этом задания во многом напоминают, по форме, обычные вопросы, они, тем не менее, названы им тестовыми.

Очевидно, в работе этого автора и многих других имеет место отождествление вопросной формы с тестовой формой. Это может быть объяснено недостатком внимания к тем специфическим требованиям, которые позволяют безошибочно отличить тестовое задание от не тестового. Перечень таких требований сформулирован нами при решении задачи исследования тестовой формы в третьем разделе третьей главы. Соответственно, в первом разделе этой главы дано и обосновано новое определение педагогического теста, а во втором - рассмотрены вопросы содержания теста.

1.3.3. Методологические основы тестового педагогического контроля. Для практической разработки теста знания одной только теории недостаточно. Как и в выпуске промышленной продукции, где помимо теории, требуются материалы, оборудование, кадры и технология, нечто подобное требуется и для выпуска тестов. Но это в теорию не входит. При разработке тестов необходима методика, включающая в себя совокупность методов анализа содержания учебных текстов и учебников, анализа содержания и формы заданий. Нужен также процесс сбора и обработки информации, нужны методы расчета параметров тестовых заданий и тестов, расчета статистических показателей и др. В общем, нужна теория о тестовом методе контроля знаний. Теории такого рода в философской литературе называется методологией (136; 42).

Помимо разработки теста и оценки его качества, процесс тестового контроля предполагает применение тестов. В англо-американской литературе эта часть контроля называется Test Administration. Задачи этой деятельности имеют слишком мало общего с содержанием теории тестов. По сути, мы имеем здесь дело с необходимостью организации той части процесса, которая занимается применением тестов. В западной литературе выделяется шесть задач, решаемых Test Administration (215; 5212)

1. Организация тестового контроля в соответствии с инструкциями разработчиков теста;

2. Подготовка испытуемых к тестированию, работа с ними во время контроля и после него;

3. Создание необходимых материально-технических условий для качественной организации тестового контроля: подготовка места, техники, приборов, программно - методического обеспечения;

4. Создание благоприятных психологических условий для положительного отношения к тестированию;

5. Осуществление таких форм предъявления теста испытуемым, которые обеспечивают эффективный и качественный сбор данных, как в режиме индивидуального, так и группового контроля;

6. Разработка оптимальной системы подсчета баллов, методов интерпретации и представления данных.

Важная для нас особенность заключается в том, что материалы, относящиеся к Test Administration, обычно публикуются не в теоретической, а преимущественно в методической литературе, что можно объяснить их неявной соотнесенностью с методологией.

Таким образом, если для разработки тестов нужны знания теории тестов, то для научной организации всего процесса приходится думать о необходимости методологии тестового контроля, охватывающей, помимо разработки тестового метода, вопросы применения тестов для различных целей, интерпретации тестовых результатов, разработки принципов научной организации тестового контроля. Соответственно, возникает необходимость дать определение последнего. Тестовый контроль можно определить как педагогическую деятельность по измерению уровня и качественной оценке структуры знаний, умений, навыков и представлений.

Методология тестового контроля вряд ли сможет быть правильно определена вне педагогических измерений. Среди множества имеющихся в литературе определений измерения наиболее плодотворной представляется дефиниция, данная N.R.Campbell. Он определяет измерение как процесс приписывания чисел для отображения свойств в соответствии с требованиями науки (240; 1). Этим определением он как бы подчеркивает измеримость только тех свойств, которые наука может определить. Трудности измерения интеллекта, знаний и тому подобных качеств личности N.R.Campbell видит не в самих этих качествах, а в общем невежестве относительно их сущности (там же).

В числе немногих авторов, высоко оценивающих роль и значение правильного организованного контроля можно выделить С.И.Архангельского. Отметив важную роль измерений в учебном процессе, он делает вывод, что проблема измерений и педагогических показателей, построенных на основе измерения, в значительной мере определяет дальнейшее развитие теории обучения как закономерной и достаточно строгой научной области. Автор дает определение измерения, формулирует задачи и на основе теории информации и понятий кибернетики пытается создать методы измерения знаний. Показательно, что свои лекции об измерениях и "измерительных показателях" учебного процесса от сопроводил многозначительным подзаголовком: "Некоторые дидактические соображения о проблеме измерения"(42; 173).

Вероятно, одну из первых, после запрета, попыток сформулировать основы методологии тестового педагогического контроля сделал автор этой диссертации в учебном пособии по педагогике и психологии высшей школы (19). Затем эта работа была существенно расширена и опубликована в виде специального учебного пособия по основам научной организации тестового педагогического контроля знаний студентов высшей школы. С ориентацией на тестовую технологию там дано определение предмета, основных функций и принципов педагогического контроля в вузе, показана роль измерений как научной основы тестового контроля знаний, рассмотрены вопросы истории и теории педагогических тестов, критериев их качества, методы сравнения и интеграции результатов тестирования в учебном процессе (23).

В качестве предмета контроля чаще других называются знания. В обыденном языке выделяется несколько смыслов, в которых употребляются термины "знать","знание" (78 ;2): под знанием понимается также продукт человеческой деятельности, который характеризует, и при том правильно, некоторое состояние дел в действительности: наличие каких-то свойств у определенных предметов, существование тех или иных отношений, реализация каких-то событий, существование тех или иных отношений, протекание некоторых процессов и т.д. (там же;3). В философии знание определяется как проверенный общественно- исторической практикой и удостоверенный логикой результат процесса познания действительности, адекватное ее отражение в сознании человека в виде представлений, понятий, суждений, теорий (199; 132).

Знание, по мнению В.И.Гинецинского, характеризует в дидактике одну из важнейших целей обучения; знание определяет и указывает на средства педагогического воздействия: - раскрывает содержание, внутреннюю сторону педагогического процесса, обозначает материал, в котором воплощается педагогический замысел. И для того, чтобы передать знание, нужно, по его мнению, представить знание как способ упорядочения определенного предметного многообразия и организовать активную познавательную деятельность (77, 78).

Много спорного материала накопилось по вопросу о целях тестового контроля. В послезапретной литературе эти цели выставлены как "реакционные", направленные на ущемление прав личности", на "классовую дифференциацию" и т.п. Об этой фразеологии можно было бы сейчас и не вспоминать, если бы в 1991 году издательство "Педагогика" не выпустило переводную книгу под названием "Суд над системой образования", в которой воскрешаются пролеткультовские истолкования целей тестирования (185 ). При острой нехватки тестовой литературы выбор для перевода именно этой книги может быть, вероятно, объяснен как попытка продолжения в наши дни того прессинга, который испытывали тестологи в СССР с начала тридцатых по конец семидесятых годов.

При формулировании целей важно выделить условия, в которых применяются тесты: это условия контроля текущего или итогового. Отмеченные условия радикально влияют как на состав теста и его качество, так и на всю организацию процесса тестового контроля. Другое важное условие - связь с целями образования. Ориентация образования не только на интересы государства, но в первую очередь, на удовлетворение потребностей каждого человека, заметно меняет цели тестирования. Помимо средства массового контроля результатов обучения, тесты и тестовые задания могут и должны стать средством эффективного самоконтроля, встроенного в учебный процесс.

Изменение целей неизбежно отражается и на изменении функций тестового педагогического контроля. Эти функции во многом совпадают с общими функциями контроля знаний. Б.Г.Иоганзен и В.А.Тюнин выделяют функции проверки и оценки знаний - контрольную, обучающую, воспитательную, организаторскую, развивающую и методическую. Наиболее важной они считают контрольную функцию (194; 9)

Наиболее полно функции контроля раскрыты в учебном пособии под научной редакцией Н.Д.Никандрова, где раскрыты такие функции, как обучающая, развивающая, повторительная, обобщающая, закрепляющая, воспитывающая, управляющая, контролирующая. Помимо функций раскрыты и требования. В соответствии с последними, контроль должен быть плановым, систематическим, объективным, экономичным, простым, обозримым (151;49). Примечательная особенность этой работы заключается в ориентации на использование тестов в системе автоматизированного обучения и контроля знаний. Различия в числе функций и в их истолковании является указанием на необходимость дополнительного исследования этого вопроса.

Функции тестового контроля не могут эффективно осуществляться, если не будут сформулированы принципы контролирующей деятельности. История появления первых принципов контроля знаний уходит вглубь веков. Определенные соображения в этом вопросе, приписывались, в частности, Пифагору. В более позднее время принципам контроля знаний уделяли, наряду с принципами обучения, Я.А. Коменский, Ф. Дистервег и другие классики педагогической науки.

К настоящему времени выделяется шесть основных принципов проверки и оценки знаний в высшей школе: действенность, дифференцированность, объективность, индивидуальность, систематичность, и единство требований. Развернутая интерпретация этих принципов дана в работе В.А.Тюнина (194). Формулированию принципов контроля знаний уделяли внимание Н.В.Кузьмина (124 и др.), Т.А.Ильина (100, 101 и др). Принципы тестового контроля сформулировал автор этой диссертации (19, 23, 26).

Анализ литературы позволяет сделать вывод о недостаточности исследований по таким ключевым вопросам как сущность и роль педагогических измерений, предмет, основные цели, функции и принципы тестового контроля. Попытка исследования этой укрупненной задачи предпринимается в четвертой главе диссертации.

1.3.4. Исследование основных критериев качества и эффективности педагогических тестов. История педагогики знает немало форм и методов оценки знаний, часть которых пришла к нам из глубокой древности и из средних веков. Среди них выделяются экзамены, ставшие самой традиционной формой контроля знаний. Экзамен - это испытание, проводимое в соответствии с установленными правилами; экзамен отражает идею проверки, испытания, при успешном результате в которых приобретаются какие-либо права. В каждой стране экзамены представляют собой свидетельство официального одобрения результатов окончания учебного заведения. Они незаменимы для мотивации к серьезной и постоянной учебной работе.

Развитие педагогической науки в последние десятилетия показало, что экзамены как форма контроля приемлемы только до тех пор, пока они сами не становятся предметом научного исследования. Даже элементарный анализ результатов экзаменов дает веские свидетельства в их непригодности с точки зрения качества контроля. В литературе приводятся результаты экзамена группы студентов, проведенного шестью преподавателями, по шести учебным дисциплинам (214 )

 Результаты экзамена ( в % )          Табл.1.3.1.

Учебные

дисциплины

Успешно сдали

 у всех шести

Не сдали

у всех шести

У кого сдали,  у кого не сдали

Латинский

10

40

50

Французский

9

21

70

Английский  

16

37

47

Математика

20

44

36

Философия  

10

9

81

Физика  

13

37

50

В этой таблице можно выделить высокие проценты рассогласования экзаменационных оценок по философии и французскому языку и несколько меньшие - по математике. Эти различия отражают специфику учебных дисциплин. Автор приходит к выводу о невозможности говорить об объективности, надежности и о беспристрастности экзаменационных оценок (214). В качестве метода преодоления отмеченных недостатков A.Agezzi видит использование тестов; вместе с другими авторами, он ставит вопрос о создании докимологии (от греч. dokime)- науке о контроле знаний, как одной из центральных для педагогики.

К настоящему времени только в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Это, пожалуй, самое существенное требование, выгодно отличающее тесты от экзамена и от остальных методов педагогического контроля. В литературе правильно отмечено, что вопрос о качестве не простой, хотя каждый человек, связывая с ним некоторое содержание знает, в какой - то мере, что это такое (45; 25). Выделяется три главных признака качества. Во-первых, качество - это определенность; во вторых - это определенность, тождественная с бытием, неотъемлемая от существования объекта; в-третьих, эта определенность является внешней. В силу чего она представляет собой границу, выделяющую данный материальный объект среди других, порождающую его своеобразия, специфику, индивидуальность (там же).

Качество тестов уже давно, с момента их появления, стало предметом научных исследований. Еще до начала двадцатого века появились первые указания на необходимость повышения точности тестовых оценок и их адекватности цели (244, 245, 260). Со временем качество тестов стало основным предметом общей теории тестов, объединяющей в себе несколько теорий тестов. В этих теориях выделяются два основных критерия качества - надежность и валидность.

В общей теории тестов уже давно ощущалась потребность в понятиях, характеризующих качество не только теста, но и каждого отдельного задания. Трудно, например, говорить о надежности задания, хотя вопрос о точности измерения с помощью этого задания для разработчика не менее важен, чем о точности всего теста. Иногда используется понятие "валидность задания", но чаще оно заменяется понятием дифференцирующей или различающей, способности задания, что лучше, хотя бы потому, что содержание понятий валидность и надежность гораздо шире; последние относятся ко всему тесту и потому их использование для оценки заданий как объектов более дробных, частных и элементарных просто неуместно. Взамен этого, однако, другого какого-либо обобщенного понятия для характеристики заданий, нет. Эту потребность теории и практики призвана удовлетворить понятие "эффективность".

Вот почему в дополнение к двум известным критериям качества тестов возникла необходимость исследования еще одного, третьего критерия - эффективности. Эта необходимость вытекает из-за недостаточности понятий и методов оценки надежности и валидности для описания сравнительно новых свойств теста и тестовых заданий. Соответственно подобран и математико-статистический аппарат, позволяющий количественно оценить уровень эффективности как теста в целом, так и каждого задания в отдельности.

Эффективность рассматривается как категория, более широкая, чем надежность. В.И.Нечипоренко считает надежность необходимым условием обеспечения заданного уровня эффективности (144;5). Эффективность функционирования сложной системы должен оценивать, по его мнению, специалист, знакомый с системой в целом, знающий ее назначение и требования к ней.

За рубежом главным толчком к развитию исследовательской мысли послужили, вероятно, недостатки классической теории тестов. Особенно остро ощущалась необходимость создания таких методов оценки трудности каждого отдельного задания, которые не зависели бы от состава оцениваемой группы. Понятно, что если на какое-либо задание j отвечает хорошо подготовленная группа, то доля правильных ответов на это задание (pj ) заметно выше, чем в слабо подготовленной группе. Возникает вопрос об истинной мере трудности задания. Многолетние попытки ответить на этот вопрос привели к двум различным результатам. Один из них заключается в рекомендациях увеличивать выборку до тех пор, пока статистика pj не станет сколько угодно близка к значению параметра трудности, получаемого на генеральной совокупности. Этот метод тривиален и расточителен, и потому его трудно признать эффективным для решения стоящей задачи.

Второй результат, полученный в 1943 г. D.N.Lawly (295 ) представлял собой попытку получить показатель трудности задания, безотносительно уровня конкретной группы испытуемых. Для этого надо было найти инвариантное свойство. Таким свойством, как оказалось, обладают так называемые характеристические кривые тестовых заданий и теста в целом. Построив по эмпирическим данным кривые, где на оси абсцисс откладываются тестовые баллы, а по оси ординат - долю, или процент правильных ответов, - он обнаружил, что для студентов слабой группы "работает" нижняя часть кривой, а для студентов сильной группы - верхняя часть. Таким образом, для оценки вероятности правильного ответа, в зависимости от уровня подготовленности (qi), стала использоваться функция логистического вида, с фиксированным уровнем трудности задания. Эту идею поиска более эффективной оценки трудности задания теста позже развил и довел до компьютерной технологии F. M.Lord (307) и его коллеги (362).

Из общих соображений легко представить, что эффективный тест не может состоять из неэффективных заданий. В таком случае естественно поставить вопрос о признаках, которые отличают эффективное задание от неэффективного. С точки зрения содержания, эффективное задание проверяет важный элемент содержания учебной дисциплины, который нередко называют ключевым для требуемой структуры знаний студентов. В тест соответственно включаются только такие задания, которые эксперты признают в качестве ключевых элементов изучаемой учебной дисциплины. По содержанию тестовые задания мало чем отличаются от вопросов, и потому содержательная эффективность задания проявляется примерно так же, как в вопросах: чем лучше формулировки, тем выше эффективность.

Практически не исследован в литературе формальный аспект эффективности тестов, если под этим понимать вопрос зависимости эффективности от формы. Здесь понятие "эффективность" может включать в себя такой понятийный индикатор как "формальная чистота", способствующий лучшему восприятию смысла задания, четкой оценке и безошибочности учета тестовых баллов. Нарушение тестовой формы всегда - а это хотелось бы подчеркнуть - приводит к худшему выражению содержания и к худшему пониманию смысла задания студентами. Вот почему можно говорить о зависимости эффективности задания от правильности формы.

В литературе уже давно обсуждается один из показателей качества задания, так называемый индекс дифференцирующей (дискриминантной) способности задания (ДСЗ). В новой теории тестов (IRT)с понятием ДСЗ ассоциируется значение параметра крутизны характеристической кривой тестового задания, что позволяет существенно уточнить и обогатить понятие ДСЗ, рассматривая его как компонент более общего понятия "эффективность задания". С помощью подобного истолкования открывается возможность ввести в научный оборот такие понятия - компоненты эффективности, как "локальная эффективность теста", как "локальная эффективность задания", "сравнительная эффективность" двух и большего числа заданий. Но самое главное - появляется возможность конструирования эффективного теста за счет отбора только эффективных заданий. Эти вопросы рассматриваются в пятой главе.

Можно поставить вопрос и о взаимосвязи понятий эффективности и информативности. Из общих соображений легко вывести представление о неинформативности легких заданий при измерении знаний у хорошо подготовленных студентов. То же относится к использованию трудных заданий для измерения знаний у слабо подготовленных. В обоих случаях задания не дают информации по подготовленности студентов только потому, что они не адекватны последним по уровню трудности. Математически точным аналогом значения информативности, а следовательно, эффективности каждого задания, на соответствующем участке трудности задания, является понятие "информационная функция".

Это понятие и соответствующий математический аппарат в научный оборот ввел A.Birnbaum (228) для оценки дифференцированной точности измерения. Отсюда остается один шаг до формулирования понятия дифференцированной эффективности теста, в соответствии с которым тест эффективен только в той точке континуума знаний, для которой более всего подходит набор его заданий по уровню трудности. Чем больше суммарная разность при предъявлении заданий меняющейся трудности к студентам одного, фиксированного уровня знаний, тем меньше его эффективность. Таким образом, тест не может быть эффективным вообще, на всем диапазоне подготовленности студентов. Он может быть более эффективен на одном уровне знаний и менее - на другом. Именно этот смысл вкладывается в понятие дифференциальной эффективности теста в процессе раскрытия идеи введения нового критерия.

1.3.5. Задача объективного сравнения тестовых результатов обучения. Эта задача возникает как результат расширяющегося применения тестов там, где закономерность роста результатов обучения может быть описана так называемой "кривой с плато" ( С.Г.Геллерштейн, 72 ). Два случая являются при этом наиболее типичными. Первый - когда все студенты начинают изучать новый предмет с нулевого уровня подготовленности. Полученный в конце обучения тестовый балл позволяет довольно легко сравнить результаты, а затем использовать последние для проведения рейтинга, профотбора и т.п. Второй, наиболее распространенный случай - когда учащиеся начинают учиться с разного уровня подготовленности. И тогда, в тех видах учебной, спортивной и трудовой деятельности, где прирост результатов явно замедляется по мере приближения к пределу, рекорду, возникает проблема справедливой оценки прироста результатов. В западной литературе эта нерешенная удовлетворительным образом проблема называется "Measure of Change"(280, 282, 302-305, 309, 329 и др.).

Если прирост оценивать привычной разностью между конечным и начальным результатом, то выясняется, что эта разность обычно бывает выше у тех, кто начинал обучение с самых низких уровней. У тех же, кто начинал с более высокого уровня, прирост оказывается ниже, потому что прогресс на высоком уровне мастерства дается гораздо труднее, чем на низком. Формальная оценка это существенное различие не только не скрывает, а наоборот, искажает. Вот почему в зарубежной литературе уже много лет обсуждается вопрос о поиске такого метода справедливой оценки достижений, который бы учитывал отмеченное различие.

У обсуждаемого вопроса есть и другая сторона, связанная с индивидуальными кривыми обучения различным видам деятельности. Если мы имеем дело с кривыми "с плато", которые подробно изучали H.L.Hollingworth L.L. Thurstone (349, 353-355), W.C. Trow & R. Sears (357), E.L. Thorndike (345), R.Hall (278), Wiley L.E. & Wiley A.M.(358, 359), H.Woodraw (360) и многие другие, то значения прироста обычно положительно коррелирует с итоговыми результатами и отрицательно коррелирует с начальными, что можно интерпретировать так: успех в обучении зависит, скорее всего, не от начального уровня, а от способностей учиться, или от других факторов, неучтенных в экспериментальном цикле. Если же мы имеем дело с кривыми без заметного плато - а это бывает в экспериментальных занятиях интеллектуальными видами деятельности, - то выявляется совсем другая картина: оценки прироста коррелируют положительно уже не с итоговыми тестовыми баллами, а с начальными, что означает, скорее всего, тенденцию зависимости итогового результата не от эффективности экспериментального метода, а от начальных результатов.

Одно из формальных свойств оценок прироста - их низкая надежность. Надежность оценок прироста тестовых результатов существенно ниже надежности начального и конечного теста. Если взять самый простой случай равенства дисперсий и одинаковой надежности, то формула для определения надежности прироста будет иметь вид (269; 598)

rdd  =

где rdd - надежность прироста;

      r- надежность начального и итогового теста;

      - корреляция баллов между начальным и итоговым тестом.

Здесь полезен пример. Даже достаточная надежность тестов, равная 0,8, не спасает от ненадежности баллов прироста при невысокой  корреляции начальных и конечных результатов, в чем легко убедиться подстановкой, таких, например, данных:

rdd  =  = 0.5 

Из структуры формулы можно видеть, что оценка надежность прироста практически всегда будет меньше оценки надежности теста.

Естественно поставить вопрос - как улучшить надежность прироста тестовых баллов? Снижение корреляции между начальным и итоговым тестом, с формальной точки зрения, это должно приносить успех, но тогда встает другой вопрос, чисто содержательный, который поднял C.Bereiter: ведь чем меньше корреляция, тем больше возникает сомнений в одинаковости предметного содержания начального и итогового тестов. А если сомнения обоснованы, то о приросте чего может идти речь? (224; 5).

Задача объективного сравнения прироста результатов может быть корректно решена при наличии математических моделей обучения. О.К.Тихомиров справедливо считает, что помимо модели необходима теория, нужны оценки параметров модели и численные предсказания (191; 33). Попытка реализовать эти требования предпринята в шестой, заключительной главе.

ВЫВОДЫ ПО ПЕРВОЙ ГЛАВЕ:

1. Анализ литературы выявил пробелы в исследовании вопросов истории педагогических тестов и тестового контроля: недостаточно изучен самый первый, древний период предыстории тестов, не хватает материалов по классическому периоду становления тестовой культуры, мало информации о современных моделях педагогического измерения, нет периодизации истории развития тестов и процесса тестового контроля. Кроме того, имеются различные мнения о времени возникновения тестов, об этапах их становления, роли тестов в учебном процессе.

2. В литературе нет согласованного, аргументированного и общепринятого определения понятия "педагогический тест"; мало изучены вопросы теории и методики отбора содержания теста, и совсем мало исследована форма тестовых заданий.

3. Педагогическое измерение и научно обоснованное оценивание не стали в отечественной педагогике основой для организации системы педагогического тестового контроля. В литературе нет единства в вопросах о целях, функциях и принципах тестового педагогического контроля.

4. Ощущается потребность в расширении числа критериев качества тестов хотя бы до трех, за счет введения в научный оборот критерия эффективности теста и тестовых заданий.

5. В отечественной литературе практически не ставится вопрос об объективном сравнении прироста тестовых результатов в процессе обучения, а имеющиеся в иностранной литературе методы такого сравнения оказываются недостаточными.

Каждый из выводов положен в основу исследовательских задач, решаемых в соответствующих главах диссертации.

Используются технологии uCoz