Глава четвертая
МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ТЕСТОВОГО ПЕДАГОГИЧЕСКОГО КОНТРОЛЯ
4.1. Измерение и научные методы оценивания – основа объективации педагогического контроля.
Статус измерения в отечественной педагогической науке и практике был превращен в сомнительный с момента принятия в 1936 г. известного постановления Совета Народных Комиссаров "О педологических извращениях в системе Наркомпросов" (148). Это постановление, запретившее применение "вредных", как там написано, тестов и анкет, стало одной из причин того, что в настоящий момент педагогическое измерение у нас как бы существует и не существует одновременно: оно существует для тех, кто проявляет интерес к этой области знания и остается неизвестным для остальных участников научно-педагогического процесса. В учебниках и пособиях по педагогике об измерении, не упоминается, можно сказать, по инерции, спецкурсы по этой проблеме в педвузах читаются редко.
В отличие от физики, где измерение уже давно стало неотъемлемой частью научного процесса, измерение в педагогике усилиями отдельных энтузиастов еще только начинает утверждаться у нас в качестве перспективного направления. Потребность в измерениях рождается из общей устремленности ученых иметь дело с более совершенными оценками тех явлений, которые становятся предметом исследования и преобразования.
Вопрос необходимости измерения для ускорения прогресса науки и практики в общем понятен и не нуждается в обосновании. Важнее другое - как можно измерять в педагогике и чем? Обыденное сознание предполагает необходимым для любого измерения наличие материального объекта и средства - фиксированной единицы измерения, с нулевой точкой отсчета. Если при измерении длины стола имеются объект, мера - метр и его дробные части, и представление о том, что измеряется именно длина, как интересующее свойство, то при педагогическом измерении ничего из перечисленного нет; объект и предмет измерения (знания студентов) явно не заданы, нет и готовой единицы измерения. Поэтому приходится начинать с теоретического анализа, главным образом, с определения основного понятия и его компонентов, преодолевать концептуальные трудности выделения интересующего свойства и давать определения системы взаимосвязанных понятий. Так, философское определение знания - это проверенный общественно-исторической практикой и удостоверенный логикой результат процесса познания действительности, адекватное ее отражение в сознании человека в виде представлений, понятий, суждений, теорий (199; 132).
Подобные определения для исследователя - прикладника выполняют, в основном, ориентирующую функцию; они не могут быть использованы непосредственно в процессе педагогического измерения ввиду принципиального различия, существующего между абстрактно сформулированным понятием и конкретной задачей измерения знания учебной дисциплины. Соответственно, возникает необходимость дать определение, позволяющее отличить одних студентов от других, в зависимости от их соответствия существенным признакам, отражаемым в конкретном понятии.
Отсюда остается один шаг до операциональных определений, в которых знание учебной дисциплины выражается правилами измерения, с перечислением конкретных элементов (например, должен знать принципы, формы, методы, определенные формулы, уметь их применять и т.д.). Именно отсюда возникает прагматическое определение знания предмета; это когда студент отвечает правильно на такие-то задания, таких-то разделов учебной дисциплины. Процесс операционализации понятий нужен, когда возникает задача измерения трудно определяемого свойства. Использование операциональных понятий оказывается правильным там, где они занимают свое место в общей системе понятий изучаемого предмета, и неправильным, где они абсолютизируются и применяются вместо специально-научных, общих и философских понятий. Операциональность понятия есть его идентифицированность с совокупностью конкретных эмпирических действий-операций, синонимичных содержанию понятия (234; 5).
Операционализация позволяет расчленить, уточнить и детализировать основное понятие, поставить ему в соответствие некоторый набор понятийных и эмпирических индикаторов. Структурирование последних методами, например, факторного анализа, позволяет получить новую эмпирическую структуру понятия, обычно не совпадающую с исходной, концептуальной. В таких случаях рассматривается степень их совпадения - несовпадения, состав эмпирических индикаторов, особенности того или иного метода факторного анализа. Если большинство концептуально выделенных индикаторов образует фактор-понятие, то результат рассматривается как успешный для проверки выдвинутой концепции знания. Таким образом, операциональные определения обеспечивают правильный переход от теоретического уровня исследования к эмпирическому.
Основными элементами перехода выступают понятийные индикаторы различного уровня общности. Так, основному понятию ставится в логическое соответствие некоторое небольшое (обычно не более пяти-шести) число частных понятий, становящихся понятийными индикаторами первой ступени. Затем этим индикаторам ставятся в соответствие еще более частные понятия, которые становятся индикаторами второй и т.д. ступени, вплоть до эмпирических индикаторов, соответствие которых основному понятию проверяется эмпирически.
Применительно к педагогическим измерениям в качестве эмпирических индикаторов обычно выступают контрольные задания, подобранные с целью проверить знания по какой-либо учебной дисциплине. Это объясняет, почему под педагогическим средством измерений в литературе понимается педагогический тест или научно обоснованная контрольная работа (172;15). В нашей работе, в качестве средства измерения рассматривается педагогический тест, представляющий систему коротких заданий, взаимосвязанных между собой общей логикой и отвечающих определенным научно обоснованным критериям качества информации, перечисленным в разделе 3.1.
Полезно выделить два принципиальных отличия тестов от обычно используемых задач. Первое отличие состоит в том, что тест является научно обоснованным методом эмпирического исследования в педагогике. В период зрелости педагогической науки в ней, как и в других, все большее внимание уделяется способам познания и критериям обоснованности истинности знания. Рефлексию такого рода Э.Г.Юдин справедливо назвал методологизмом. Появление и развитие последнего в ХХ в. связано с возрастанием роли средств научного познания (210; 9).
Второе принципиальное отличие заключается в сравнительно новой роли теста как инструмента теоретического исследования в таких, например, направлениях, как изучение личности, способностей. Здесь использование тестов позволило преодолеть методологический тупик, в котором оказались авторы многочисленных теорий, концепций и иных умозрительных построений. Только в последние десятилетия в педагогике стала осознаваться задача согласования теоретических конструкций с эмпирическими результатами, для чего стали необходимыми методы, позволяющие это делать без заметной потери качества такого согласования. Тесты являются сейчас, по-видимому, наиболее развитой в научном отношении частью методического арсенала педагогики, позволяющей адекватно скреплять теорию с эмпирией, в соответствии с такими известными стандартами качества информации, как критерии надежности и валидности.
Нередко обоснование качества результатов педагогических исследований требует обращения к внепедагогическим понятиям и критериям - философским, логическим, математико-статистическим. В частности, философский элемент в теорию педагогических измерений вносит уже упоминавшийся тезис о неизбежности погрешности измерений. Критики нередко апеллируют к этому тезису как к обоснованию принципиальной порочности тестов в смысле точности измерений. При этом забывается, что формой преодоления этого философского скепсиса является тезис о возможности приближенного измерения с достаточно приемлемой точностью. Применение на практике последнего тезиса позволило получить, например, в физике те фундаментальные результаты, которыми эта наука по праву гордится.
В качестве альтернативы тестам нередко подчеркивают преимущество традиционных экзаменов, основанных на тысячелетней практике их применения и на ряде неявно сформулированных предположений. Остановимся на кратком анализе двух основных предположений такого рода. Первое сводится к тому, что удачный ответ на экзаменационные вопросы свидетельствует о хороших знаниях по учебному курсу, так как билет выбирается в случайном порядке и студенты готовятся к ответам на любой из них.
Вряд ли кто из преподавателей высшей школы сомневается в том, что это предположение, будучи правильным вообще, может оказаться неправильным в конкретном случае. Хороший ответ на вопросы экзаменационного билета зависит, как известно, не только от некоторого уровня знания всего курса, но и от знания ответов на наиболее трудные вопросы курса. Последние могут оказаться в экзаменационном билете ( тогда это "плохой" билет, с точки зрения студента), либо нет ("хороший" билет). Кроме того, студент, знающий предмет, но с малоразвитыми вербальными способностями существенно проигрывает в сравнении с теми, у кого знаний меньше, но которые умеют не волноваться, отвечать на экзамене и производить благоприятное впечатление на преподавателя. Особенно это проявляется при оценке знаний по общественным наукам. Второе предположение граничит с убеждением, что экзамены позволяют объективно и справедливо оценить знания студентов. Объективность оценки, особенно устной, выставляемой экзаменатором, часто ставится под сомнение, особенно теми абитуриентами, которые потерпели неудачу на приемных экзаменах; этим, главным образом, объясняется стремление большинства, если не всех, вузов сократить до минимума число устных экзаменов и заменить их, где можно, письменными.
Увеличение числа экзаменаторов может увеличить объективность оценки, но может, при отсутствии четких критериев, вызвать и разногласия между членами экзаменационной комиссии, что в конечном итоге делает неэффективным этот способ повышения объективности. Понятие "справедливость" является, по существу, ценностным; понятие "оценка" имеет два основных смысла - как суждение о ценности (или значимости) и как приблизительная характеристика некоторой величины.
В качестве величины могут выступать любые интересующие признаки: знание предмета, общественная активность, свойства личности студента и др. Педагогическая оценка обычно охватывает оба отмеченных смысла. Как и все человеческие оценки, их можно разделить на две группы - абсолютные и относительные. В формулировании абсолютных оценок используются термины "хорошо", "плохо" и т.п. Оценки преподавателей вузов ближе к абсолютным оценкам, разделенным на четыре уровня (градации) - отлично, хорошо, удовлетворительно и неудовлетворительно.
Оценки нередко путаются с отметками. Последние являются численными аналогами оценочных суждений. Они вошли в жизнь в советский период директивным путем - Постановлением Совета Народных Комиссаров РСФСР от 10 января 1944 года. Постановление было принято, как писалось, "в целях более четкой и точной оценки успеваемости" и замены "словесной системы" оценки успеваемости - отлично, хорошо, посредственно, плохо и очень плохо - цифровой пятибалльной системой 5, 4, 3, 2, 1. Интересна одна деталь - этим постановлением предписывалось ввести цифровую пятибалльную систему отметок немедленно, со следующего дня - 11 января 1944 г. - от момента публикации (176). В других странах сложилась традиция отмечать единицей отличные знания, а пятеркой - плохие. Из этого видно, что одинаковым оценкам можно ставить в соответствие различные отметки. Интересны суждения об отметках известного педагога Ш.А.Амонашвили: "в отметках мало педагогики...в них больше власти. Отметки - это костыли хромой педагогики" (37; 83).
Казалось бы, что существующая сейчас в вузе оценка является количественной, основанной на использовании порядковой шкалы. Однако при более внимательном рассмотрении можно выяснить, что это мнение является распространенным заблуждением. На самом деле педагог, выслушав на экзамене ответ студента, оценивает ответ и выражает оценку в зачетной книжке одним из слов, отображающих качество знаний - "неудовлетворительно", "удовлетворительно", "хорошо" и "отлично".
Всем студентам, плохо отвечающим на экзамене, ставится "неудовлетворительно"; все они, таким образом, объединены в одну группу (класс) неуспевающих по данной дисциплине. Внутри этой группы о каком-либо порядке говорить не приходится. Таким же образом можно образовать отдельные группы, состоящие только из тех студентов, которые отвечают на экзамене удовлетворительно, хорошо и отлично. Между группами (а не между отдельными студентами) можно установить порядок, присвоив им ранги или баллы. Таким образом, видно, что речь идет не о порядковой шкале, в которой каждый студент отличается от другого своим местом, а об упорядочении групп. Вот почему здесь правильнее говорить не о порядковой, а о шкале упорядоченной классификации, в которой упорядочиваются не отдельные объекты, а группы или классы объектов.
Одним из самых распространенных методов оценивания является рейтинг (от англ. to rate - оценивать). Суть этого метода, нередко называемого также экспертным, сводится к тому, что каждый студент оценивается педагогом по семи-одиннадцатибалльной шкале, по тем свойствам, которые трудно поддаются измерению. Например, если у студента М. общественная активность выше чем средняя, то отметка (знак x) ставится на оценочной шкале в соответствующем месте.
При оценке преподаватель придерживается следующего правила: чем больше проявление того или иного свойства (признака), тем правее ставится знак "x"; тем большим будет численное значение. Если студенты оцениваются не по одной, а по нескольким характеристикам, то результаты представляются в виде матрицы исходных данных, в которой по строкам располагаются оцениваемые студенты, а по столбцам - каждое оцениваемое свойство. Элементы этой матрицы представляют оценки i-го студента по j-му свойству. Такое расположение является удобным для дальнейшей статистической обработки и интерпретации результатов.
В случае оценки нескольких свойств (характеристик) результат каждого студента может суммироваться по всем этим свойствам - если операция суммирования имеет смысл с точки зрения сущности изучаемого явления. Вопрос о возможности суммирования связан с содержательным анализом изучаемого явления. При суммировании иногда прибегают к сравнительному взвешиванию значимости каждого свойства, что достигается посредством регрессионного анализа и шкалированием экспертных оценок.
Можно выделить, по меньшей мере, два субъективных фактора, влияющих на надежность рейтинга. Пользуясь языком факторного анализа, первый фактор можно назвать "снисходительность - строгость" в оценках. Всех педагогов, которым поручается рейтинг, можно условно разделить на три группы: строгие, средние и снисходительные. В зависимости от принадлежности к тому или иному типу, результаты рейтинга заметно меняются, что подтверждено экспериментально в нашем исследовании ( 3 ).
Другой субъективный фактор в рейтинге можно назвать "общее восприятие". Этот фактор связан с тем, что на результаты рейтинга обычно влияют некоторые качества и свойства личности, не относящиеся прямо к учебной характеристике студента. Например, внешность, голос, манера держаться или разговаривать и все то, что в иностранной литературе называется halo effect.
В этой связи возникает вопрос определения качества выставляемых оценок. Рассмотрим пока только один аспект этого вопроса - это определение степени согласованности оценок преподавателей. Как и при обработке экспертной информации, один из практических способов проверки согласованности полученных оценок - использование коэффициента корреляции. Коррелируются оценки одних и тех же студентов, выставленные разными педагогами. При этом за основу берется предположение: чем более согласованы мнения педагогов (экспертов), тем точнее полученные оценки. Пример экспериментальной проверки надежности экспертов приводится в нашей работе ( 3 ) и в разделе 5.2. этой диссертации.
В основе нынешней вузовской оценки лежит та же самая идея рейтинга, о которой говорилось выше. Если стоит вопрос о зачете, то студенты классифицируются всего лишь на две группы - тех, кому зачтено, и тех, у кого "незачет". Это обычный случай использования номинальной шкалы, где все оцениваемые объекты разбиваются только на два класса. На экзаменах студентов классифицируют по пятибалльной оценке, чаще всего на четыре группы, соответствующие оценкам - "отлично", "хорошо", "удовлетворительно" и "неудовлетворительно". Очень редко ставится "очень плохо".
Пятибалльная шкала имеет своим главным преимуществом простоту и привычность, что объясняет ее широкую и длительную, по времени, распространенность. Но она имеет и недостаток - уже отмечавшуюся субъективность, большую зависимость от того, кто оценивает и кого оценивают. Каждый преподаватель дает оценку на основе своего личного понимания, которое, конечно же, у людей различно. В педагогической практике не редкость, когда одну и ту же письменную работу, не говоря уже об устном ответе, преподаватели оценивают по разному.
Понятно, к их оценкам примешивается субъективное восприятие, всегда имеющее место при оценке одного человека другим. Это чувствуется особенно тогда, когда преподаватель высказывает дополнительные к отметке отрицательные оценочные суждения. Суждения такого типа нередко задевают чувство собственного достоинства студентов в большей степени, чем выставляемая при этом неудовлетворительная оценка.
Другой недостаток пятибалльной шкалы оценок касается ее слабой дифференцирующей способности. Она позволяет провести грубую классификацию студентов только на четыре группы - отличников и тех, кто учится хорошо, удовлетворительно и неудовлетворительно. Более тонкое различение, особенно нужное на приемных и выпускных экзаменах, в экспериментальной работе и для целей эффективного управления качеством обучения, пятибалльная шкала не дает и дать не может. Отсюда понятна актуальность вопроса совершенствования педагогических оценок на основе измерений.
Если бы у педагогов была возможность опросить каждого студента по всем вопросам, включенным в экзаменационные билеты, то степень обоснованности выставляемой оценки была бы безусловно выше, потому что для проверки знаний были бы использованы все задания, но такой возможности обычный экзамен не предоставляет, и потому сплошной опрос заменяется выборочным. Студент отвечает на два-четыре вопроса, предъявляемые ему в случайном порядке, из общего числа имеющихся в экзаменационных билетах. Последние можно представить как большую совокупность (К); соответственно, вопросы одного билета составляют меньшую совокупность (к); по ответам на (k) делается попытка сделать индуктивный вывод о знании ответов на все вопросы из большей совокупности.
В статистике известно, что этот вывод бывает тем точнее, чем больше отношение (к/К); соответственно, при малом числе вопросов в выборке обоснованность и точность вывода становятся сомнительными. Как раз такой случай характерен для экзамена. Если в билете имеются два вопроса, а всего тридцать билетов, то отношение к/К = 2/60. Судить о знании всех шестидесяти вопросов на основе ответа только по двум является делом довольно рискованным. Это - недостаток экзамена.
С точки зрения проведенного рассуждения можно сделать два вывода: первый - не следует слишком полагаться на экзаменационные оценки, и второй - вопросы экзаменационных билетов лучше разукрупнить и продублировать в нескольких билетах так, чтобы в каждом билете было сравнительно больше коротких заданий, охватывающих большее число разных тем. Хотя при этом число К несколько возрастает, однако, за счет дублирования и трех-четырехкратного увеличения отношение к/К также возрастает, что заметно повысит достоверность вывода о знаниях каждого студента. Именно это соображение, но уже в предельном виде положено в основу традиционно-организованного тестового контроля, при котором каждому студенту предъявляются одни и те же короткие задания по всем ключевым темам раздела(к/К=1).
Другим недостатком экзамена является несравнимость оценок, полученных студентами разных институтов по одной и той же дисциплине и отсюда - принципиальная невозможность корректно установить - в каком вузе процесс обучения поставлен лучше( Ответ на этот вопрос можно дать только в случае использования стандартной тестовой программы с применением технических средств контроля. Поэтому с управленческой точки зрения полезность тестовых оценок заметно выше экзаменационных.
Отмечая преимущества тестового метода оценки знаний, необходимо оговорить, что они проявляются не всегда и не везде. Во-первых, не всякий тест лучше экзамена, а только тот, который разрабатывается и применяется на основе теории обучения и теории тестового контроля. Во-вторых, тест лучше применять при массовой проверке знаний по той или иной учебной дисциплине в школе, у абитуриентов, на отдельных студенческих потоках, факультетах и в институтах. С целью повышения эффективности таких масштабных проверок рекомендуется использование технических средств контроля, стандартных бланков и использование ЭВМ, что позволяет в короткий срок собрать информацию, обработать ее и выдать результаты. При сравнительной проверке знаний в нескольких институтах тестовая информация может стать объективной основой для принятия решения об аттестации или аккредитации вузов.
В зарубежной педагогической литературе широко используется понятие "evaluation", что можно перевести как "оценивание", имея в виду не только конечный результат, но и процесс формирования оценки. Соответственно выделяются два основных вида оценивания - формирующее и итоговое (231; 88-90). Цель первого - оказывать, посредством оценивания, формирующее влияние на текущий процесс обучения, в смысле его улучшения, за счет установления обратной связи от студента к преподавателю. Цель второго - получить итоговые результаты обучения. В отличие от оценки и оценивания, измерение представляет собой конкретную процедуру количественного сопоставления изучаемого свойства с некоторым эталоном, принимаемым за единицу измерения.
Основная цель измерения в педагогике - это получение численных эквивалентов проявления интересующего признака. При педагогическом измерении свойство фиксируется в виде содержания понятия (например, знание предмета).Роль элементарной единицы измерения выполняют контрольные задания, подобранные для определения уровня знаний по интересующей учебной дисциплине. Объектом измерения является конкретный носитель знания: в нашем примере - студент. Наиболее корректное средство измерения - педагогический тест. Получаемые при измерении числа позволяют глубже проникнуть в суть изучаемых явлений, что особенно важно для научно-обоснованной постановки тестового контроля.
Относительно измерения педагогическую общественность можно разделить на две группы. Одни готовы измерять все, что можно; эта готовность основана на вере в универсальной истинности галиллеевского утверждения о том, что если что-либо существует, то оно существует в каких-то количествах, и значит, оно принципиально измеримо. Другие относятся пессимистично к возможности измерения знаний; знание или незнание - это, по существу, качественный переход человека из одного состояния в другое и поэтому всякая затея количественно оценить этот переход некоторым педагогам всегда кажется немного претенциозной. Отсюда следует обычная рекомендация больше полагаться на собственный опыт и интуицию.
В основе обеих точек зрения лежат ложные предположения о том, что науку можно делать с инструментом особого рода - количественной шкалой с равными интервалами и нулевой точкой отсчета: потому все, что не отвечает этому требованию, часто рассматривается как необоснованная претензия на точность (297).
Однако исследования в общественных науках, куда входит и педагогика, можно проводить с инструментами меньшей точности, но все-таки лучшими, чем индивидуальное мнение, опыт и интуиция. И хотя измерения в педагогике не могут сравниться в точности с физическими измерениями, они могут многое прояснить в пределах возможной точности, и пределы эти оказываются вполне удовлетворительными для педагогики.
Многие из этих проблем должны решаться на основе использования различных шкал, тестов и других методов. Вначале введем понятие шкалы. Из множества определений остановимся на самом кратком: шкала - это средство для измерения свойства объектов. Она представляет собой числовую систему, в которой отношения между различными объектами выражены свойствами числового ряда. Совершенствование оценок, а вместе с этим и педагогического контроля, можно вести в двух основных направлениях. Первое - это использование технических средств в сочетании с тестовыми методами контроля. Известен опыт США по созданию научных подразделений, проводящих автоматизированный контроль качества образования. Эти подразделения имеют главный информационно-вычислительный центр, региональные отделения тестового контроля знаний. Собираемая на местах информация стекается в центр и там обрабатывается. Годовая прибыль ведущей организации Educational Testing Servise (ETS) превышает сто миллионов долларов, которые она получает за независимую тестовую проверку знаний школьников, абитуриентов и студентов по заказам школ, вузов и других организаций. Всю эту прибыль ETS направляет на научные разработки по совершенствованию методов объективного контроля знаний и способностей молодежи (341; 46). Вопрос о поступлении в вуз решается так же на основе тестовых оценок, что способствует эффективному осуществлению единой политики в области образования и кадров. Использование программ с выдачей фасетных заданий требуемого уровня трудности, в случайном порядке, не только снижает возможности списывания, а фактически устраняет их.
Другие направления совершенствования педагогического контроля - это разработка новых форм и методов контроля, и совершенствование уже имеющихся за счет критического их осмысления. Хотя часто говорится об эффективных и неэффективных методах, дело не только в методе, а и в условиях его применения. Применение самых современных методов обучения может оказаться неэффективным, если эффект будет измеряться старыми субъективными методами. К тому же нет методов обучения одинаково эффективных для студентов различного уровня подготовленности: что хорошо для слабых студентов, не годится сильным. Не случайно в последние годы за рубежом поставлены сотни специальных экспериментов по определению адекватности методов обучения уровню подготовленности студентов, интеллектуальному развитию, памяти, уровню мотивации. Основная цель таких экспериментов - оценка взаимосвязи метода обучения и уровня подготовленности (292, 293).
В каждой студенческой группе можно выделить часть студентов с высоким уровнем развития интеллекта, со средним и уровнем развития ниже среднего. Первые хорошо схватывают логически ясные положения, даже самые абстрактные; им не нужны конкретные примеры, повторы и дополнительные разъяснения. У последних, наоборот, больше развито предметное мышление, им нужно обязательно дать пример, и только после этого можно пытаться делать некоторые обобщения. Естественно, что педагогический контроль в таких случаях должен учитывать зависимость от начального уровня подготовленности студентов, который необходимо тщательно оценить, а это означает необходимость дифференциации, выходящей за пределы используемой сейчас пятибалльной оценки. Здесь можно сформулировать принцип - чем больше дифференцирующее воздействие на студентов оказывает тот или иной метод обучения, тем более чувствительной должна быть шкала, оценивающая эти достижения.
Отсюда становится понятной необходимость перехода от пятибалльной оценки к более дифференцированной. Это, кстати, уже сделано в ряде стран. В США пятибалльная оценка используется только для целей текущего контроля, преимущественно в младших классах школы. Итоговый контроль, приемные и выпускные экзамены, контроль знаний в вузе осуществляется тестовыми методами, позволяющими получить более точные и дифференцированные оценки.
В нашей стране преподаватели уже давно пользуются дополнительными дифференцирующими знаками, такими как плюс и минус, добавляемыми к той или иной отметке в классных журналах. Но это, во-первых, делают не все и не всегда: во-вторых, это делается, так сказать, для внутреннего пользования: в-третьих, это выходит за рамки существующих инструкций и потому носит самодеятельный характер. И хотя потребность в дифференцированных оценках давно уже ощущается как в практике педагогической работы, так и в научно-исследовательской работе, изменений в этом пока нет: консервативные тенденции, направленные на сохранение привычной шкалы оценок, оказались довольно сильными.
Автором этой диссертации было сделано две попытки как-то преодолеть застой, существовавший в разработке научных вопросов педагогического оценивания - направления, которое за рубежом носит название Educational Evaluation. Первая была реализована в учебном пособии для институтов и факультетов повышения квалификации по основам педагогики и психологии высшей школы (19; гл.8), где была предложена десятибалльная шкала, и вторая - в учебном пособии по основам научной организации тестового педагогического контроля (23).
Поскольку недостаток методов педагогического оценивания отрицательно сказывается на качестве выпускаемых специалистов, стоит задача определения наиболее подходящей шкалы оценок, такой, которая обладала бы большей дифференцирующей способностью и, вместе с тем, не создавала бы психологических трудностей для преподавателей, привыкших к пятибалльной шкале. Для решения этой задачи была предложена другая, одиннадцатибалльная шкала, которая получается из известной в литературе шкалы стандартных девяти единиц за счет добавления по одному интервалу в 0,5 стандартного отклонения справа и слева.
В отличие от известной шкалы стандартных девяти единиц (stanine, 268-270, 346 и др.), здесь появляется возможность более тонкой дифференциации испытуемых. Если значениям стандартных баллов приписать лексические оценочные эквиваленты, то соотношение между значениями нормированных отклонений Z, процентом испытуемых и оценочными эквивалентами можно представить в табл.4.1.1.
Соотношение между балльными оценочными эквивалентами баллами, Z - значениями и процентом испытуемых. Табл.4.1.1.
Значения 11-ти балльной шкалы |
Лексико-оценочные эквиваленты |
Значения Z |
Процент испытуемых |
1 |
Низшая оценка |
Zi < - 2,25 |
1 |
2 |
Неудовлетворительно - |
-2,25 < Zi <- 1,75 |
3 |
3 |
Малоудовлетворительно |
1,75 < Zi < - 1,25 |
7 |
4 |
Удовлетворительно |
- 1,25 < Zi < - 0,75 |
12 |
5 |
Ниже среднего |
- 0,75 < Zi < - 0,25 |
17 |
6 |
Средняя оценка |
- 0,25 < Zi < 0,25 |
20 |
7 |
Выше среднего |
0,25 < Zi < 0,75 |
17 |
8 |
Хорошо |
0,75 < Zi <1,25 |
12 |
9 |
Очень хорошо |
1,25 < Zi <1,75 |
7 |
10 |
Отлично |
1,75 < Zi <2,25 |
3 |
11 |
Высшая |
2,25 < Zi |
1 |
Утверждение одиннадцатибалльной шкалы в качестве нормативной может дать ряд преимуществ. По сравнению с пятибалльной, повышается дифференцирующая способность педагогической оценки. Не надо вычислять, до сотых долей, средний балл, полученный из баллов, исходная точность которых была заведомо ниже.
Особенно четко в одиннадцатибалльной шкале дифференцируется один процент лучших и худших. Лучшие - это чаще всего самые талантливые студенты, которых надо выявлять и затем тщательно с ними работать. Если согласиться с тем, что один хороший специалист лучше ста плохих и средних, то ясно, что в период НТР от этого одного процента зависит довольно много. С другой стороны, мы имеем 1% наименее подготовленных студентов, с которыми высшая школа может безболезненно расстаться, так же как, впрочем, и с тремя процентами тех, кто в одиннадцатибалльной шкале имеет балл два.
Сейчас ректору любого отечественного вуза немало хлопот доставляет так называемый полупроходной балл, когда из n-числа абитуриентов нужно отобрать меньшее число, но кого? Возникает вопрос обоснования выбора. Делать это, образно говоря, по цвету глаз или по каким-то еще признакам, не предусмотренным правилами приема, нельзя. Использование одиннадцатибалльной шкалы на приемных экзаменах снимает этот вопрос, так как лучшие абитуриенты становятся заметнее, а из числа средних легко выбрать тех, у кого подготовка оказалась несколько лучшей. Особенно выигрывает педагогическая наука, развитие которой изрядно тормозится несовершенными оценками.
Пятибалльная шкала оставляет мало простора для вариации. Последнее обстоятельство затрудняет внедрение статистических методов обоснования преимущества новых подходов в обучении и воспитании, препятствует качественной проверке учебников, учебных пособий, а также проверке эффективности организационных и воспитательных мероприятий.
В дополнение к этому, у рекомендуемой здесь одиннадцатибалльной шкалы, по сравнению с ранее описанной девятибалльной и десятибалльной шкалами (19, 23, и др.), есть преимущества психологического характера. В качестве опорных точек шкалы используются три привычных каждому человеку сравнительных понятия - низшее значение "единица", хуже которой нет, среднее значение "шесть", приписываемое легко различимому и наиболее распространенному в практике среднему уровню знаний и высшая оценка "одиннадцать", посредством которой появляется возможность выделить из числа отличников самого отличного студента. Это важно для дальнейшего мотивирования учебы тех, кто уже учится отлично, но может, при старании, показать более выдающиеся результаты, особо ценные как для развития личности самого студента, так и для пополнения интеллектуального потенциала общества. Одна из таких важных для высшей школы сфер, где измерения еще не использовались мало-мальски заметно - это педагогический контроль, научная организация которого на современном этапе развития науки и техники не мыслится без тестов. Применение тестов позволяет быстро и качественно собрать информацию об уровне подготовленности абитуриентов, студентов и выпускников вузов, обработать эту информацию, сравнить достижения, выявить тенденции, достижения и недостатки, осуществлять прогноз, внести коррекции в учебный процесс.
Важно подчеркнуть, что уже сейчас, в процессе создания научно обоснованной системы педагогического контроля, отсутствие у профессорско-преподавательского состава научной подготовки в вопросах педагогического измерения стало существенным тормозом. Преодолеть это торможение можно посредством организации систематической работы по повышению педагогической квалификации, разработки нового поколения программно - педагогических и программно - инструментальных средств, организации компьютерной поддержки процесса автоматизированного обучения и тестового контроля знаний, основанного на современных моделях педагогического измерения.