ПРОБЛЕМА КАЧЕСТВА ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ

Аванесов В.С.

докт. пед. наук, проф.

testolog@mtu-net.ru

Статья опубликована в журнале «Педагогические измерения» №2, 2004 г. Новая редакция -2008 год.

Качество педагогических измерений - главная проблема теории и практики педагогических измерений. Достижение качества связано с концептуализацией интересующей переменной величины и операционализацией главного понятия, с определением исходных постулатов, аксиом и принципов, с разработкой формализмов и критериев пригодности результатов.

Введение. Для педагогических измерений проблема качества является ключевой. Потому что только качество позволяет распознать подлинные измерения от псевдоизмерений. Не случайно в теории вопросы достижения и проверки качества являются основным предметом исследования. В практике некачественное измерение порождает ошибочные решения при аттестации выпускников школ, вузов, при оценке кадров в профотборе и при приёме абитуриентов в вузы, создаёт иллюзию измерений там, где таковые в действительности отсутствуют. На актуальность рассматриваемой проблемы указывает и нынешняя практика проведения ЕГЭ, основанная на чиновных идеях и метафорических названиях[1].

Измерение качеств личности

Проблему качества относят к числу фундаментальных, ввиду её погруженности в глубины науки. При измерении исследователи используют методы концептуализации интересующего свойства и операционализации основного понятия, определяют постулаты, аксиомы и формализмы, выдвигают и проверяют гипотезы, разрабатывают модели измерения и определяют правила научной интерпретации получаемых результатов. В отличие от педагогики и других наук, в педагогических измерениях заложена обязательность рефлексивной оценки получаемых результатов. А потому измерение, не содержащее в себе рефлексии относительно собственного качества, не есть измерение в строгом смысле этого понятия. Без оценок качества научный статус самих измерений являются весьма сомнительным.

Качество является традиционной философской категорией, рассматриваемой обычно в паре с другой сопряженной категорией – «количество». Гегель определял качество как тождественную с бытием определенность предмета. Последний перестаёт быть таковым, если теряет своё качество. Поэтому качеством называют существенную определенность каждого предмета, что выражается в закономерной связи частей и свойств этого предмета.

Выделяется три главных признака качества. Во-первых, качество - это определенность; во вторых - это определенность, тождественная с бытием, неотъемлемая от существования объекта; в-третьих, эта определенность является внешней, в силу чего она представляет собой границу, выделяющую данный материальный объект среди других, порождающую его своеобразие, специфику, индивидуальность[2].

Естественно, что к педагогике ближе понятия "качество образования, обучения, воспитания". О качестве «педагогических измерений» в основных учебниках педагогики ничего не говорится, из чего можно сделать вывод о недопонимании роли этой прикладной педагогической науки. Главным средством педагогического измерения является тест, а основной частью теста является тестовое задание. Тестовые задания отбирают из подходящих заданий в тестовой форме[3].

Качество педагогических измерений - явление многоплановое, а потому представляет собой комплексную проблему. Оно зависит от концептуализации измеряемого качества (свойства), от правильности основного понятия, поставленного в соответствие измеряемому свойству личности, от системы понятийных и эмпирических индикаторов интересующего свойства, от используемых аксиом, теорий и формализмов, а также от принимаемых критериев качества педагогических измерений.

К настоящему времени только в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Это, пожалуй, самое существенное требование, выгодно отличающие измерения от остальных методов педагогического контроля. При формальном оценивании главным становится не работа, а несовершенные показатели работы. Подмена такого рода приводит к работе на показатель, к его овеществлению, реификации.

Качество педагогических измерений можно определить как меру соответствия получаемых результатов заранее сформулированным целям. В западной теории педагогических измерений сложились два основных требования – это так называемые надежность и валидность.

Определения

Вслед за Стивенсом педагогическое измерение представляет собой процесс присвоения численных значений интересующему свойству личности на основе определённых решающих правил. Из этого определения можно вывести, что основная цель измерения в педагогике - это получение численных эквивалентов проявления интересующего признака. При педагогическом измерении свойство фиксируется в виде содержания понятия, например, знание учебной дисциплины. Измерения проводятся посредством различных тестов, результаты тестов подвергаются шкалированию.

Объектом измерения являются конкретные носители интересующих свойств – студенты и другие испытуемые. Получаемые при измерении числа позволяют глубже проникнуть в суть изучаемых явлений, что особенно важно для научно - обоснованной постановки тестового контроля.

Предметом педагогических измерений часто бывает подготовленность испытуемых, которая представляет собой единство знаний, умений, навыков, представлений. К подготовленности можно отнести и чрезмерно используемое сейчас понятие «компетентность», представляющую собой прагматическую, или утилитарную, проекцию общего содержания образования личности.

Основной предмет педагогических измерений – разработка качественных тестов для измерения уровня подготовленности учащихся. В наши дни такие тесты используются не только для измерения уровня подготовленности, но и для проведения рейтинга студентов, мониторинга учебного процесса, для организации адаптивного обучения и адаптивного тестового контроля, дистанционного образования: в общем, тесты используются во всех современных образовательных технологиях.

Актуальность и виды тестов

Актуальность тестового метода объясняется его несомненными преимуществами перед другими педагогическими методами. Здесь выделено пять основных преимуществ:

1) высокая научная обоснованность самого теста, позволяющая получать объективированные оценки уровня подготовленности испытуемых;

2) технологичность тестовых методов;

3) точность измерений;

4) наличие одинаковых, для всех пользователей, правил проведения педагогического контроля и адекватной интерпретации тестовых результатов;

5) сочетаемость тестовой технологии с другими современными образовательными технологиями.

По критерию «содержание» можно выделит три вида педагогических тестов:

Гомогенный тест измеряет знание по одной учебной дисциплине. Задания такого теста охватывают содержание только этой дисциплины.

Гетерогенный включает в себя несколько гомогенных тестов (иногда говорят шкал). Содержание гетерогенного теста охватывает содержание нескольких дисциплин.

Интегративный тест состоит из таких заданий, что ответы на каждое из них требует знания нескольких учебных дисциплин. Таким образом, содержание интегративного теста охватывает содержание нескольких учебных дисциплин. В процессе итоговой аттестации выпускников образовательных учреждений лучше было бы использовать интегративные тесты. Но таких тестов пока нет, либо о них нет информации.

Структура. Структура педагогических измерений представлена на рис.1.

Рис.1

Из рисунка видно, что в педагогические измерения входят тестирование, рейтинг и мониторинг, в той части последнего, которая касается разработки показателей. Общая же часть мониторинга относится к сфере управления образованием. Основным видом педагогических измерений и понятием является тест. Другие основные понятия – задания в тестовой форме и тестовое задание. К этой схеме необходимо прибавить шкалирование уровня подготовленности испытуемых и уровня трудности заданий.

Латентность. Педагогические измерения осложняются тем, что интересующие свойства даны не явно. Эти свойства считаются латентными, т.е. скрытыми от прямого наблюдения, а потому они недоступны для прямого, непосредственного измерения. Латентными называются положительные и отрицательные свойства личности, не поддающиеся непосредственному измерению. Примерами являются «подготовленность студентов», «знание учебной дисциплины», «способность понимать» «интеллектуальное развитие» и многое другое. Попытки измерения подобных качеств[4] на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности.

Если сравнить ситуацию педагогического измерения знаний и физического объекта, например, длины стола, то данная ситуация заметно выигрышнее для проведения физического измерения. Там явно выделен объект измерения – стол, предмет или интересующий признак – длина, есть некий инструмент – рулетка, с нанесёнными на неё значениями интервальной шкалы. И, наконец, есть общепринятые правила проведения такого измерения. В педагогических измерений используется другой подход. Там исходные значения получается в матрице тестовых результатов, являющейся итогой сопряжения множества заданий с множеством испытуемых.

Индикаторы. Подготовленность приходится измерять косвенно, через эмпирически фиксируемые проявления признаков (индикаторов) знания. Поэтому каждое задание теста желательно рассматривать как индикатор, выявляющий какой-то один фрагмент знаний у тех испытуемых, у которых такие знания есть.

Сколько индикаторов (заданий) нужно иметь в одном тесте? Здравый смысл подсказывает, что судить о знаниях всего проверяемого материала по ответу только на одно задание довольно опрометчиво, хотя в каждой учебной дисциплине есть задания, правильные ответы на которые говорят о многом. Устойчивые выводы лучше делать по результатам применения достаточного числа эмпирических индикаторов, обычно от двадцати до сорока. Индикаторы, сведенные в одну систему, образуют тест.

Концептуализация. В самом начале педагогических измерениях нет ни предмета, ни метода, ни правил измерения и интерпретации. Поэтому педагогическое измерение начинается с концептуализации. Вначале делаются предположения относительно предмета измерения. Например, что такое знания учащихся или студентов, из чего они состоят, можно ли найти показатели наличия или отсутствия знаний, каковы эти показатели, хорошо ли они указывают на меру знаний? В процессе концептуализации самой существенной частью является идея латентности интересующего признака.

Первым шагом в поисках ответов на эти и другие подобные вопросы является процесс концептуализации измеряемого свойства. В педагогических измерениях это обычно знания, умения, навыки и представления. В последние годы много говорят об измерении компетентности, или различных компетенций, но на этом пути много трудностей. Причиной такого положения стало отсутствие общепринятого понимания - что такое компетентность, является ли это устойчивым свойством личности, можно ли компетентность измерять, или хватает каких-либо элементарных показателей или оценок?

Как уже отмечалось, в отличие от элементарных оценок и некоторых простых физических измерений, педагогические измерения требуют определения ведущего понятия, уточнения имени измеряемого качества, определения предмета измерения. Важно построить систему индикаторов, понятийных и эмпирических, указывающих на наличие или отсутствие интересующего качества[5]. Важная часть процесса концептуализации – определение возможного источника погрешностей измерения.

Операционализация. Операционализация понятия есть его идентифицированность с совокупностью конкретных эмпирических действий - операций, синонимичных содержанию понятия[6]. В операциональных понятиях подготовленность по учебной дисциплине выражается правилами измерения, с перечислением конкретных элементов (например, должен знать принципы, формы, методы, определенные формулы, уметь их применять и т.д.). Именно отсюда возникает прагматическое определение знания предмета - когда студент отвечает правильно на такие-то задания, таких-то разделов учебной дисциплины.

Процесс операционализации понятий нужен, когда возникает задача измерения неявно определяемого свойства. Использование операциональных понятий оказывается правильным там, где они занимают свое место в общей системе понятий изучаемого предмета, и неправильным, где они абсолютизируются и применяются вместо специально-научных, общих и философских понятий.

Операционализация позволяет расчленить, уточнить и детализировать основное понятие, поставить ему в соответствие некоторый набор понятийных и эмпирических индикаторов. Структурирование последних методами, например, факторного анализа, позволяет получить новую эмпирическую структуру понятия, обычно не совпадающую с исходной, концептуальной. В таких случаях рассматривается степень их совпадения – несовпадения, состав эмпирических индикаторов, особенности того или иного метода факторного анализа. Если большинство концептуально выделенных индикаторов образует фактор-понятие, то результат рассматривается как успешный для проверки выдвинутой концепции знания.

Операциональные определения обеспечивают правильный переход от теоретического уровня исследования к эмпирическому уровню. Основными элементами перехода выступают понятийные индикаторы различного уровня общности. Так, основному понятию ставится в логическое соответствие некоторое небольшое (обычно не более пяти-шести) число частных понятий, становящихся понятийными индикаторами первой ступени. Затем этим индикаторам ставятся в соответствие еще более частные понятия, которые становятся индикаторами второй и т.д. ступени, вплоть до эмпирических индикаторов, соответствие которых основному понятию проверяется эмпирически. Применительно к педагогическим измерениям в качестве эмпирических индикаторов обычно выступают задания, подобранные с целью проверить знания по какой-либо учебной дисциплине[7].

Принципы организации педагогических измерений.

Принципы - это основные требования, которыми специалисты по педагогическим измерениям руководствуются в своей деятельности[8]. В педагогическую теорию и практику принципы вводятся как совокупность исходных правил, способствующих эффективности учебного процесса. Помимо известных в литературе общих принципов обучения и воспитания, представлены следующие принципы:

Принцип связи педагогических измерений с целями образования и обучения. Он признан ассоциацией директоров американских школ, считающих, что обучение без последующего применения тестовых форм немыслимо; только по итогам измерения можно знать - что достигнуто, и в каком направлении дальше следует двигаться. Формулирование целей тестирования должно отвечать критериям социальной полезности и значимости, научной корректности и общественной поддержки.

Принцип объективности измерений нацеливает на устранение субъективизма и предвзятости. Сейчас часто применяется традиционный метод оценивания - формирование коллегиальной оценки, для чего создаются комиссии, что является неточным, нетехнологичным, дорогостоящим, а потому тупиковым методом. Получаемые при этом оценки нередко называются объективными, хотя они продолжают оставаться субъективными, а точнее, интерсубъективными. Второй путь повышения объективности - это использование стандартных тестовых программ и технических средств, что позволяет добиться точности измерения и адекватности цели;

Принцип справедливости и гласности измерений означает одинаково доброжелательное отношение ко всем, без исключения тестируемым, открытость всех этапов процесса, своевременность ознакомления с результатами тестирования.

Все испытуемые выполняют задания сходного содержания, из одних и тех же укрупненных дидактических единиц. Даются задания одинаковой трудности, в одинаковое время, с одинаковыми правилами оценивания. Никому не позволяется списывать. Гласность означает возможность контроля со стороны общественных и профессиональных организаций. Содержание теста соответствуют объявленной цели тестирования.

Принцип научности и эффективности предписывает необходимость проверки содержания и правильности формы тестов, что выполняется независимыми общественными ассоциациями педагогов по учебным дисциплинам. Особое значение для повышения качества контроля имеет методология и теория.

Методология педагогических измерений определяется как учение об основных положениях, формах, методах, принципах научного исследования и эффективной организации практики применения, главным образом, тестов. В круг основных методологических проблем входят формулирование главных идей, целей и задач, определение содержания, сущности и принципов педагогического измерения. Наиболее эффективный путь влияния методологии на практику - через разработку теории научной организации измерений.

Принцип систематичности. Относится к организации учебного тестирования, осуществляемого для улучшения знаний по результатам самопроверки - самой гуманной формы контроля. Самопроверке планомерно подвергаются знания каждого учебного модуля, раздела, каждой темы. Тем самым систематически формируется рефлексия относительно изученного и недоученного знания. Этим принципом подчеркивается необходимость согласования целей и результатов текущего, рубежного, тематического и итогового измерения (или оценивания), регулярности этой работы. Всесторонность акцентирует внимание на необходимости репрезентативного представления содержания учебного курса в содержании теста.

Принцип гуманности и этичности педагогических измерений означает, что этим исключается нанесение какого-либо вреда развитию личности. Не допускается ущемление по национальному, этническому, материальному, расовому, территориальному, культурному и другим признакам.

Тестирование может быть только добровольным. Различные опыты и эксперименты на детях и гражданах запрещены ст. 21, ч.2 Конституции РФ. При добровольном тестировании всем испытуемым требуются одинаковые инструкции, задания, условия, правила интерпретации и оценивания результатов, одинаковое время, недопустимость списывания и других форм нарушения. Все эти и другие требования этического характера относятся к словосочетанию “Test Fairness”, что регулируется на Западе профессиональными стандартами [9].

Исходные постулаты педагогической теории измерений.

Уже со времён Гельмгольца сложилась традиция рассмотрения любого измерения вместе с вопросами оценки допускаемых при этом погрешностей. Постепенно сложился и был принят так называемый постулат о неизбежной погрешности любого измерения, который гласит: результат эксперимента - пишет Л.Яноши, - всегда содержит ошибку, как бы тщательно ни проводились измерения»[10]. По мнению В.М.Свириденко, этот постулат может рассматриваться как выражение эмпирического факта. Что необходимо приводит к другому исходному положению теории измерений, а именно: к тезису о невозможности знания абсолютного значения измеряемой величины [11].

Постулат и тезис объясняют - почему проблему качества педагогического измерения естественным образом стали рассматривать в тесной связи с вопросами оценки погрешностей. Обычно принимается общее концептуальное утверждение: чем больше ошибок в проводимых измерениях, тем хуже качество самих измерений. И с этим согласны многие, если не все. Однако в практике педагогических измерений возникает много спорных вопросов о природе ошибок, возможности их фиксации и коррекции, особенно если это касается так называемых систематических ошибок измерения. Например, в физических измерениях для систематических ошибок сложилась практика внесения поправок. Поправки иногда применяются и в педагогических измерениях, что делается при сравнении результатов испытуемых, полученных одним тестом, в группах с различными уровнями подготовленности. Тем не менее, теория педагогических измерений имеет дело, в основном, со случайными ошибками измерения. При этом большую роль играют суждения относительно того - что считать ошибками измерения, как фиксировать последние, как связаны ошибки измерения с истинными значениями тестовых баллов?

Для педагогической теории тестов можно определить следующую систему исходных постулатов:

1) тест создаётся для получения результатов, помогающих развитию личности, практике образования и науке;

2) из множества возможных форм исследованы и признаны тестовыми всего четыре формы заданий[12]. Каждая форма может иметь варианты. Например, в заданиях с выбором одного или нескольких правильных ответов определены три варианта: задания с выбором одного правильного ответа, с выбором одного наиболее правильного ответа и задания с выбором нескольких правильных ответов. Третий вариант наиболее предпочтителен[13]. Каждой форме и каждому варианту предшествует своя инструкция для испытуемых. Каждая инструкция задаёт испытуемым точно определённый вид деятельности.

3) в отличие от смысла элементарного перевода слова «тест», в образовании тест означает метод, результат и интерпретацию результатов педагогического измерения;

4) главные критерии качества тестов – это точность результатов измерения и адекватность интерпретации результатов в соответствии с целью.

Аксиомы и формализмы.

Для достижения качества педагогических измерений требуется аксиоматика (система аксиом). Аксиомы – первоначальные утверждения теории, которые принимаются без доказательств. Для педагогической теории измерения можно предложить следующую систему аксиом:

1) устойчивого существования интересующего качества, признака, свойства или характеристики личности, в виде латентной переменной величины;

2) представления интересующего свойства как непрерывно измеряемой латентной величины. Как считал великий математик Л.Эйлер, понятие «величина охватывает всё то, что изменяется и может быть измерено»;

3) существования истинного значения интересующего качества у каждого испытуемого. Измеряемая величина предполагается варьирующей на множестве испытуемых;

4) существования положительной связи между наблюдаемыми результатами испытуемых и уровнем развития латентного качества. Результат испытуемого при ответе на каждое задание теста рассматривается как вероятностная функция от уровня латентного качества; чем чаще, количественно, у испытуемых, проявляется интересующее качество, тем определённее выражено измеряемое качество личности.

5) аксиома неизбежной погрешности измерения, в соответствии с которым измеряемое значение (X) не равно истинному (T): X предполагается отягощенным некоторой погрешностью. Таким образом, , откуда следует, что у каждого испытуемого i

X_i = T_i + E_i(1)

где E_i - некоторая случайная ошибка измерения, состоящая из суммы возможных ошибок различного происхождения, значения и знака.

В реальном процессе педагогического измерения каждый испытуемый имеет свои значения Х_i, Т_i, и Е_i. Значения Х_i рассматриваются как функция от истинного уровня подготовленности (Т_i)[14] и от значений ошибок измерения (E_i). Каждый из компонентов последнего равенства варьирует на множестве испытуемых.

Операция суммирования в формуле (1), справа и слева, дает

. Деление на N приводит к равенству:

6) Аксиома о случайных погрешностях измерений, распределяемых по нормальному закону.

7) Аксиома независимости (некоррелируемости) истинных и ошибочных компонентов измерений. Этой аксиоме ставится в соответствие следующий формализм: вычитание из равенства X_i = T_i + E_i соответствующих средних арифметических, т.е. дает значения отклонений от соответствующих средних арифметических

(2)

Возводя в квадрат члены равенства (2), слева и справа, и, затем, суммируя, имеем (3)

Раскрывая скобки в (3), получаем

(4)

Деление на N дает

(5)

где - два значения ковариации истинных компонентов с ошибочными. Эта ковариация в теории тестов принимается равной нулю, вследствие чего это равенство принимает вид т.н. классического равенства (6), в котором дисперсия тестовых баллов принимается состоящей из двух компонентов:

(6)

8. Формализмы. Как вытекает из равенства [6] дисперсия тестовых баллов включает, аддитивно, два компонента: . Такому представлению ставятся в соответствие некоторые формализмы[15].

Почленное деление выражения на даёт

1 = + (7)

После переноса влево получится

1 - = (8)

Концептуально надежность тестовых результатов равна правой части равенства [8] ; а операционально это понятие выражается левой частью [8], потому

r_tx = 1 - (9)

что существует несколько простых методов, позволяющих оценить значение . Формула [9] в западной литературе названа классической, вероятно, ввиду её концептуальной простоты и широкой применимости в разработке тестов.

Надежность

Раньше было принято писать и говорить о надежности тестов. Теперь в зарубежной литературе утвердилась другая норма: считается правильнее обсуждать вопрос не надежности тестов, а надежности тестовой информации (результатов). Этот поворот в истолковании объясняется новым пониманием вопросов соотношения метода, условий его применения и интерпретации получаемых данных. Свойства метода могут переноситься на свойства результатов, а могут, по разным причинам, и не переноситься.

Формулы [8-9] дают концептуальное выражение общего понятия «надежность тестовых результатов». В каждом отдельном эмпирическом исследовании это общее понятие может быть выражено посредством различных смыслов и операций, в зависимости от интересующей концепции, от интерпретации общего понятия «надежность результатов» и главное – от источника возникновения случайных погрешностей измерения.

Из соображений наглядности и доступности методы определения надёжности удобно показать на небольшом примере данных. Эти данные[16] приведены в табл. 1. Первый столбец таблицы представляет номера испытуемых, с 1 по 13, из чего видно, что общее число испытуемых равно 13 (N =13). Вектор-столбцы Х₁, Х₂, Х₃, …Х₁₀ представляют ответы испытуемых по десяти заданиям. Таким образом, таблица 1 содержит результаты 13 испытуемых по 10 заданиям. 13 Х 10 = 130 упорядоченных по строкам и столбцам результатов образуют матрицу исходных данных, включенных в состав табл.1.

Таблица тестовых результатов[17] Табл.1

№№	Х₁	Х₂	Х₃	Х₄	Х₅	Х₆	Х₇	Х₈	Х₉	Х₁₀	Х_i	Х_i²
1.	1	1	1	0	1	1	1	1	1	1	9	81
2.	1	1	0	1	1	1	1	1	1	0	8	64
3.	1	1	1	1	0	1	1	0	1	0	7	49
4.	1	1	1	1	0	1	0	1	0	0	6	36
5.	1	1	1	1	1	1	0	0	0	0	6	36
6.	1	1	1	1	0	0	1	0	0	0	5	25
7.	1	1	0	1	1	0	1	0	0	0	5	25
8.	1	1	1	1	1	0	0	0	0	0	5	25
9.	1	0	1	0	1	1	0	0	0	0	4	16
10.	0	1	1	0	0	0	0	1	0	1	4	16
11.	1	1	1	0	0	0	0	0	0	0	3	9
12.	1	1	0	0	0	0	0	0	0	0	2	4
13.	1	0	0	0	0	0	0	0	0	0	1	1
R_j	12	11	9	7	6	6	5	4	3	2	65	387
W_j	1	2	4	6	7	7	8	9	10	11
p_j	.923	.846	.692	.538	.462	.462	.385	.308	.231	.154	5
q_j	.077	.154	.308	.462	.538	.538	.615	.692	.769	.846
p_jq_j	.071	.130	.213	.248	.248	.248	.236	.213	.178	.130

Вектор исходных тестовых результатов испытуемого Y_i получается как результат суммирования баллов, у каждого испытуемого, за выполнение всех десяти заданий. В этой таблице за каждый правильный ответ давался один балл, за неправильный ответ – нуль баллов.

Y_i²означает квадраты значений исходных тестовых баллов;

R_j - число правильных ответов, полученных в заданиях;

W_j - число неправильных ответов, полученных в заданиях;

p_j – доля правильных ответов по заданию j; определяется по формуле p_j = ;

q_j– доля неправильных ответов по заданию j; находится по формуле q_jj = ;

p_jq_j - значения дисперсии тестовых баллов по каждому заданию, для случаев использования оценок 1 и 0.

Y_i - исходные тестовые баллы испытуемых, получаемые в результате сложения баллов по строкам.

Y_i²- квадраты значений баллов Y_i.

Методы определения надежности тестовых результатов.

Существует довольно много методов обоснования надежности тестовых результатов. Одни из них проще, другие – сложнее. И хотя в данной статье приводятся самые распространенные методы, лексика, однако, заметно отличается, от лексики других авторов.

Один из самых привлекательных методов определения надежности тестовых результатов связан с идеей определения мер структурированности знаний как отдельного испытуемого, так и группы испытуемых. Совокупность единичек и нулей, полученных каждым испытуемым, представлена в соответствующей строке матрицы, включенной в табл. 1. Эта совокупность образует т.н. профиль испытуемого, который свидетельствует о структуре знаний. Если предположить, что тест представляет собой систему заданий возрастающей трудности, то правильным можно назвать такой профиль баллов испытуемого, в котором все нули следуют за всеми единицами. Испытуемый знает правильные ответы на легкие задания и не может ответить правильно на трудные задания. Это предположение совпадает с естественной педагогической логикой.

Примеры правильных профилей знаний дают вектор-строки испытуемых табл. 1, под номерами 5, 8, 11, 12, 13. В остальных профилях испытуемых есть ошибки. Ошибкой считается каждый элемент, стоящий не на своем месте. Например, у первого испытуемого сумма полученных баллов равна 9. При идеальной структуре теста и такой же структуре знаний эти девять баллов должны были располагаться на первых девяти местах, если помнить, что тест представляет систему заданий возрастающей трудности. Отклонение от этого идеала может быть вызвано незнанием, или неудачной попыткой угадать правильный ответ. В первой строке не на своём месте стоят нуль по четвертому заданию (он должен стоять в десятом задании), а также единица в десятом задании – там должен стоять нуль. Таким образом, в профиле первого испытуемого имеется две ошибки. Аналогично, по две ошибки содержат профили испытуемых 2, 3, 4, 6, 7. По четыре ошибки содержатся в профилях 9-го и 10-го испытуемых. Итого в матрице насчитывается 20 ошибок. Естественно предположить - чем больше ошибок (инвертированных элементов, стоящих не на своих местах), тем хуже структура знаний, тем ниже может оказаться и надежность результатов, полученных данной группой испытуемых. В соответствии с похожей концепцией измерения и интерпретацией результатов L.L.Guttman ввёл следующую меру:

r_g = 1 - (10)

где r_g – коэффициент структурированности тестовых результатов испытуемых данной группы.

- количество ошибочных элементов в профилях всех испытуемых;

N – число испытуемых в матрице данных;

K – число заданий в тесте.

Подставляя полученные данные в формулу [10], получим

r_g = 1 - = 0,846

В качестве нижней границы допустимой надежности измерения обычно принимается значение 0,800. Всё, что хуже этого значения обычно считается недостаточным. Поскольку полученное значение r_g> 0,800, то принимается решение о достаточной надежности измерения. Эта надежность складывается из двух основных профилей: заданий и испытуемых. Не случайно матрицы такого типа в западной литературе названы conjoint, что переводится с английского как «соединённый, объединённый; общий, совместный». В этом методе в качестве источника погрешностей измерения рассматриваются инверсии в профилях испытуемых и заданий теста.

Второй метод оценки надежности основанный на идее стабильности результатов испытуемых. В связи с этим методом возникает ассоциация с известной древнегреческой притчей о человеке, который побывал на острове Родос и, якобы, умел там далеко прыгать. Ему было предложено: «здесь Родос, здесь и прыгай»! В этом методе испытуемым предлагается дважды выполнить одно и то же задание, после чего результаты коррелируются. Если r > 0,800, то результаты полагают приемлемо устойчивыми (стабильными), причём, тем стабильнее, чем выше значение коэффициента r. Такого рода показатель надежности лучше называть коэффициентом стабильности или устойчивости результатов испытуемых. Здесь источник погрешностей – различия результатов первого и второго измерения.

Классическим методом определения надежности результатов считается, корреляция результатов испытуемых, полученных при ответах на параллельные варианты одного и того же теста[18]. Хорошим способом достижения параллельности вариантов теста является фасетная технология разработки заданий в тестовой форме. Эта технология изложена в трудах автора[19]. Получаемое при этом значение r интерпретируется в смысле похожести, близости, параллельности результатов испытуемых по данным вариантам теста. Здесь источник погрешностей – возможная непараллельность заданий теста по содержанию.

В практике укоренился метод деления тестовых результатов на две части. По данным, например, табл.1 считают отдельно, баллы испытуемых в нечетных (1,3,5, и т.д.) и в четных заданиях (2, 4, 6, и т.д.). Полученные суммы образуют два вектора, Х и Y, представленные в табл. 2.

Табл.2 Корреляция балов испытуемых в нечетных и четных заданиях.

№№ испытуемых	Баллы, полученные в нечётных заданиях (Х)	Баллы, полученные в чётных заданиях Y)	ХY	Х²	Y²
1	5	4	20	25	16
2	4	4	16	16	16
3	4	3	12	16	9
4	2	4	8	4	16
5	3	3	9	9	9
6	3	2	6	9	4
7	3	2	6	9	4
8	3	2	6	9	4
9	3	1	3	9	1
10	1	3	3	1	9
11	2	1	2	4	1
12	1	1	1	1	1
13	1	0	0	1	0
S:	35	30	92	113	90

По данным таблицы далее считают коэффициент корреляции, используя формулы расчета классического коэффициента корреляции Пирсона.

SS_х = SХ²- ;

SS_у = SY²- ;

Второй шаг. Находим сумму произведений Х и Y, скорректированную на средние значения (SP_xy), по формуле

SP_xy = -

Третий шаг. Находим коэффициент корреляции по формуле

r = (11)

Получаемые при этом значения r бывают ниже других r , что объясняется делением числа заданий на две части. Поэтому применяется коррекция посредством формулы Spearman-Brown, где n указывает на множитель (в нашем случае надо удвоить), а k, с индексами, показывает коэффициент корреляции, полученный по половинам заданий.

r₌(12)

Подставляя в формулу [12] данные таблицы 2, получаем

r = =

Полученное значение не дотягивает до желаемых 0,800, что указывает на недостаточную надежность результатов испытуемых, при оценке данным методом, что не случайно. Здесь источник погрешностей измерения – уменьшение числа заданий и, возможно, их недостаточная параллельность по содержанию.

Параллельный вариант теста, имея внешне отличающееся содержание, должен, концептуально, измерять то же самое, что и исходный тест, с той же точностью. Параллельными называются варианты, которые имеют сходное предметное содержание в пределах укрупненной учебной единицы, равные средние арифметические, равные дисперсии и равные интеркорреляции. Ошибочные компоненты одного параллельного варианта не коррелируют с такими же компонентами другого варианта теста (r_ee = 0).

Этот метод применим для случаев с достаточно большим числом заданий, причём, каждое четное задание должно измерять то же, что и нечетное задание. Хорошим примером, содержащим в себе два параллельных варианта заданий открытой формы, является тест по арифметике[20], выполняемый в течение 2-3 минут, в зависимости от уровня подготовленности тестируемой группы. Тест построен по принципу сдвоенных параллельных заданий: при расчете коэффициента надежности теста нечетные номера заданий образуют первую половину теста (Х₁), четные - вторую половину (Х₂). Содержание каждой пары заданий, начиная с первой, измеряет общие способности быстро выполнять в уме одну арифметическую операцию на определенном множестве чисел. Тест приводится в табл. 3.

АРИФМЕТИЧЕСКИЙ ТЕСТ Табл. 3.

1. 5 + 2 =____	25. 0,83 + 0,12 =____
2. 4 + 5 = ___	26. 0,47 + 0,35 =____
3. 6 – 2 =____	27. 0,22 - 0,13 =____
4. 9 – 6 = ____	28. 0,87 - 0,43 =____
5. 3 x 2 =____	29. 0,22 x 0,10 =____
6. 2 x 4 =____	30. 0,15 x 0,2 = ____
7. 9 : 3 = ____	31. 0,21 : 0,1 = _____
8. 6 : 2 = ____	32. 0,48 : 0,24 =_____
9. 10 + 6 = __	33. 1/4 + ¼ = _____
10. 12 + 4 =_____	34. 1/4 + 2/4 = _____
11. 16 – 4 = _____	35. 3/5 – 1/8 = _____
12. 19 – 7 = _____	36. 9/16 – 5/16 =____
13. 4 x 3 =_____	37. 1/3 x 1/3 = _____
14. 6 x 3 = _____	38. 2/8 x 3/8 = _____
15. 18 : 3 = _____	39. 4/5 : 2/5 = _____
16. 15 : 5 = _____	40. 5/16 : 3/16 = ____
17. 25 + 32 = ____	41. 1/2 + 2/4 = _____
18. 41 + 23 = ____	42. 8/32 + 3/4 =_____
19. 43 – 17 = ____	43. 9/10 – 2/5 = _____
20. 67 – 21= _____	44. 9/16 – 3/4 = _____
21. 16 x 5 = _____	45. 2/6 x ½ = _____
22. 22 x 4 = _____	46. 3/16 x 3/4 = _____
23. 48 : 12 = _____	47. 4/12 : 2/3 = ____
24. 84 : 14 = _____	48. 8/32 : 4/16 =_____

11.5. Если в табл.2. из числового вектора Х вычесть баллы Y_,(или наоборот, из Y вычесть баллы испытуемых Х, разницы нет), то дисперсия полученных разностей и есть , используемая в формулах [8-9] для определения надежности.

Определить можно сделать в рамках идеи внутренней состоятельности (когеренции) тестовых заданий по результатам теста. Например, это может означать, что в таком тесте число баллов в нечетных заданиях теста не должно отличаться от числа баллов в четных заданиях теста. Возможные отличия можно отнести к погрешностям измерения.

№№ испытуемых	Рез-ты Х	Рез-ты Y	e	e²
1	5	4	1	1
2	4	4	0	0
3	4	3	1	1
4	2	4	-2	4
5	3	3	0	0
6	3	2	1	1
7	3	2	1	1
8	3	2	1	1
9	3	1	2	4
10	1	3	-2	4
11	2	1	1	1
12	1	1	0	0
13	1	0	1	1
S:	35	30	5	19

SS_e = Se²- ;

Подставляем полученное значение в числитель дроби формулы [9]. В знаменателе должно стоять значение дисперии тестовых баллов. Обратимся к данным табл. 1, где SХ²= 387, а SХ = 65. Подставляем эти значения в формулу для расчета суммы квадратов отклонений тестовых баллов от среднего арифметического балла.

SS_х = SХ²- ;

Это и есть искомая дисперсия тестовых баллов. Остаётся подставить полученные значения в формулу [9]

r = 1 - (9, повторно)

r = 1 -

Это и есть мера надежности тестовых результатов испытуемых, подсчитанная методом разделения тестовых результатов на две части. Из чего видно, что разделение теста на части всегда снижает показатель надежности.

Несколько формул для определения надежности тестовых результатов были разработаны Kuder G.F., Richardson M.W[21]. Одна из них, KR-20 , где буквы означают фамилии авторов, а цифра 20 – порядковый номер самой распространенной в практике тестирования формулы: r = () (13; K-R 20)

Чаще используется более удобный вариант этой формулы

r = (1 - ) (13; K-R 20)

где r - коэффициент надежности. Для данных табл. 1, k - число заданий, равно 10, Σp_jq_j = 1,915, = 4, 769. Подставляем в формулу K-R 20, получаем:

r =(1 - ) = 0, 664.

В компьютерных программах для разработки тестов обычно закладывается коэффициент альфа (α). Этот коэффициент предложен на случай, когда оценки за выполнение тестовых заданий даются не только 1 и 0, но и другие, например, 2, 3, и т.д. Формула коэффициента альфа

r = (1 - ) (14)

Если предположение о гомогенности заданий теста находит подтверждение, то надежность тестовых результатов теоретически более обоснованно считать по другой формуле тех же авторов, по КR-8. С момента своего создания она практически не применялась из-за некоторой громоздкости. Появление компьютеров изменило ситуацию в ее пользу[22].

Валидность

Валидность (от англ. слова valid - действительный, пригодный, действенный) - один из основных критериев качества педагогических измерений.

Первый вопрос - валидность чего? Раньше считалось – валидность теста, как мера его пригодности. В последние годы понятие «валидность» стали соотносить с тестовыми результатами. Валидность результатов - это характеристика их возможности измерять именно то свойство, которое должно измеряться у испытуемых.

Второй вопрос – от чего зависит валидность тестовых результатов. Валидность результатов зависит от цели разработки и применения теста, от содержания и формы тестовых заданий, от качества теста, условий проведения измерений и от интерпретации результатов. Валидность результатов зависит также от подбора контингента испытуемых, от их физического и психического состояния, и от других условий.

Третий вопрос – о критериях валидности результатов педагогических измерений. В качестве критериев валидности выступают показатели обоснованности получаемых результатов:

а) Формальный критерий. Нарушение тестовой формы всегда - а это хотелось бы подчеркнуть - приводит к худшему выражению содержания и к худшему пониманию смысла задания студентами.

Форма заданий должна:

- соответствовать видам проверяемых знаний;

- минимизировать вероятность угадывания правильных ответов в случае незнания учебной дисциплины;

- быть технологичной;

- обеспечивать создание параллельных вариантов заданий.

б) Содержательный критерий. На содержательном уровне основным критерием оценки качества результатов измерения является мнение преподавателей-предметников, разработчиков заданий в тестовой форме. Они часто верят в то, что их задания – это и есть тест, пригодный для задуманной цели. Основанием подобной веры нередко становится поддержка того или иного авторитетного педагога. В этом случае валидность результатов основана на субъективной убежденности (вере) в адекватности заданий для поставленной цели. На Западе такого рода валидность результатов именуют face validity.

На экспертном уровне задания в тестовой форме проверяются с точки зрения правильности их содержания, а также правильности использованных тестовых форм. После такой экспертизы прежняя убежденность в качестве заданий снижается, так как многие из них приходится переделывать заново. После чего валидность результатов педагогического измерения заметно повышается,

Тест может быть пригодным для оценки знаний у студентов первого курса и непригодным для второго и последующих курсов, по понятной причине различий в содержании теста и в уровне трудности. Валидность по содержанию играет решающую роль в педагогическом измерении. Правильность отбора учебного материала обеспечивается привлечением опытных преподавателей - экспертов, которые хорошо различают, каким тестом можно оценивать знание предмета, а каким нельзя.

Если педагоги-эксперты подтверждают соответствие содержания заданий цели тестирования, то ожидаемые результаты пригодны для измерения знаний; такие результаты обладают свойством content validity, или по-русски, свойством валидности измерений по содержанию заданий теста.

в) Концептуальный критерий. Если понятие "знание учебного предмета" включает в себя такие, например, понятийные индикаторы как знание определений, принципов, фактов, законов, формул, и организация контроля позволяет все это эмпирически проверить, то результаты называют валидными относительно содержания данного понятия (концепции). В противном случае тест невалиден - тем больше, чем больше содержание понятия и концепции расходится с содержанием заданий теста. Если в роли эмпирического показателя теоретического понятия выступает тот или иной тест, то возникает проблема обоснования теста как показателя отображаемого им понятия. В процессе теоретического анализа иногда оперируют такими понятиями, как "знания", "интеллект", "общественная активность" и т.п., не всегда беспокоясь о реальном содержании этих понятий. В эмпирическом же исследовании дело обстоит иначе. Там каждому понятию приходится искать подходящие эмпирические референты, т.е. показатели содержания этого понятия.

Например, если преподавателя вуза интересует вопрос - как связана успеваемость студентов (Y) с их общественной активностью (ОА), то для корректного ответа надо найти, а точнее, построить эмпирические показатели как успеваемости (Y), так и общественной активности (ОА). В качестве показателя (Y) могут выступать тестовые баллы, экзаменационные оценки, рейтинг преподавателей, ведущих занятия с этими студентами и др. Аналогично, в качестве показателя (ОА) может выступать сумма баллов, полученная каждым студентом за участие в работе молодежных, благотворительных, воспитательных и т.п. организаций, связанная с понятием общественной активности. Теоретическими понятиями (Y) и (ОА) оперировать в эмпирическом исследовании мы не можем, и потому вместо них используем их эмпирические референты.. Это случай так называемой концептуальной валидности результатов, определяемой мерой логического соответствия понятия и показателя. На Западе адекватность результатов концепции называют construct validity.

г) Прогностический критерий. Он применяется в программах профессионального отбора. Если есть тесты, которые помогают повысить точность прогнозирования успешности принимаемых абитуриентов, то это означает, что результаты теста обладают прогностической валидностью. Здесь главным являются корреляционные исследования. Чем выше корреляции – тем более валидны результаты тестов для поставленной цели.

В отечественной и западной тестовой литературе много пишется не только о валидности тестов, но и, ошибочно, о валидности отдельных заданий. Научные разработки последних лет позволяют подойти по-новому и к этому вопросу, а именно: вместо валидности оперировать другим понятием - эффективность заданий. Естественным следствием такого подхода является обогащение определения теста: в этом случае тест становится не просто системой заданий, а система эффективных заданий. Понятно, что система неэффективных заданий порождает неэффективный тест, а в некотором пределе - уже не тест.

Эффективность теста

Эффективным можно назвать тест, если он лучше, чем другие тесты, измеряет знания студентов интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это - по возможности, в комплексе. С понятием "эффективность" сопряжено и близкое к нему по содержанию понятие "оптимальность". Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым поочередно или вместе.

Эффективный тест не может состоять из неэффективных заданий. В таком случае естественно поставить вопрос о признаках, которые отличают эффективное задание от не эффективного. С точки зрения содержания, эффективное задание проверяет важный элемент содержания учебной дисциплины, который нередко называют ключевым для требуемой структуры знаний студентов. В тест соответственно включаются только такие задания, которые эксперты признают в качестве ключевых элементов изучаемой учебной дисциплины.

В определении эффективности обращается внимание на два ключевых элемента - это число заданий теста и уровень подготовленности студентов. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий, в таком случае, можно называть сравнительно более эффективным.

Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный момент студентов. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню. Легко понять практическую бесполезность того, чтобы давать слабым студентам трудные задания; большинство студентов, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим студентам, потому что и здесь высока вероятность, но теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том, и в другом случае испытуемые не будут различаться между собой. Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест - это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых. С этой точки зрения т.н. КИМы, рассчитанные, одномоментно, на слабых и сильных выпускников, являются, вероятно, самым неэффективным методом измерения.

Эффективность теста зависит также и от принципа подбора заданий. Если подбирать задания для измерения на всем диапазоне изменения трудности, то снижается точность измерения на отдельном участке. И наоборот, если стремится точно измерить знания испытуемых, например, среднего уровня подготовленности, то для этого потребуется иметь больше заданий именно данного уровня трудности. Поэтому тест не может быть эффективным вообще, на всем диапазоне подготовленности студентов. Он может быть более эффективен на одном уровне знаний, и менее - на другом. Именно такой смысл вкладывается в понятие эффективности теста. Соответствие уровня трудности теста уровню подготовленности студентов можно попытаться оценить показателем количества информации, получаемой в процессе измерения. Впервые этот показатель в практику тестирования ввел A. Birnbaum[23].

Отношение большей дисперсии к меньшей при одинаковом, например, числе заданий, с последующим умножением на сто, может служить в качестве одного из показателей сравнительной эффективности теста с позиции его дифференцирующей способности.

Эффективность теста можно оценить и по соответствию уровня трудности заданий уровню подготовленности тестируемых студентов. Эту оценку в литературе нередко ошибочно относят к т.н. «валидности теста».

Эффективность теста можно оценить и как дифференцированную точность измерения испытуемых различного уровня подготовленности.

Тест называется эффективным для измерения знаний студентов с уровнем, соответствующим точке оси, если он обеспечивает в этой точке максимум информации о значении при минимуме числа заданий. Эффективность измерений достигается за счет дифференцированного подбора заданий требуемого уровня трудности для каждого студента, имеющего уровень знаний q.

Если сравнить понятие эффективность с понятиями надежность и валидность, то самое существенное отличие нового понятия от двух традиционных заключается в переходе от усредненного к дифференцированному показателю.

Надежность относится к тестовым результатам; только тогда можно найти коэффициент надежности, как усредненную меру точности измерения. Аналогично, находится и валидность тестовых результатов. Эффективный же тест, напротив, предполагает отход от усреднения и от фиксированного для всех испытуемых числа заданий. Число выбираемых заданий меняется в процессе тестирования, в зависимости от ответа каждого испытуемого. Таким образом, эффективное тестирование – это обязательно индивидуализированное измерение знаний каждого испытуемого с помощью оптимального по трудности и минимального по количеству набора заданий. Поэтому самый эффективный – это адаптивный тест.

Разработка тестов начинается с анализа содержания преподаваемых знаний и овладения принципами формулирования тестовых заданий. К сожалению, на тесты все еще смотрят как на средство, которое легко придумать, в то время как сильная сторона тестов - их эффективность, проистекающая из теоретической и эмпирической обоснованности.

[1] Примером являются т.н. «контрольно-измерительные материалы - КИМЫ» единого государственного экзамена. В прошлом составе минобра и в нынешнем Минобрнауки считают что КИМы содержат тесты и относятся к педагогическим измерениям. Однако в этом вопросе чиновники сильно заблуждаются. И им удалось ввести в заблуждение также и высшее руководство страны. Попытки такого рода были в Казахстане и в Украине, но там последовало чёткое разъяснение первых лиц: надо проводить не госэкзамены, а качественное тестирование.

См.напр. "Предстоит обеспечить проведение в 2008 году всеобъемлющего внешнего независимого тестирования. «Это одна из ключевых программ в 2008 году, – подчеркнул Виктор Ющенко. Мы должны обеспечить стопроцентное ТЕСТИРОВАНИЕ во всех учебных заведениях» . Украина сейчас на пути к этой цели: в 2006 году тестирования прошли 44 тысячи абитуриентов, в 2007 – 116 тысяч. Источник: В. Ющенко обеспокоен коррупцией в сфере образования // http://glavred.info/archive/2007/08/30/084009-6.html

См. также: Аванесов В.С. Метафоры российского образования// Российская Федерация сегодня, №2, стр. 36-38, 2001г.

¹¹Ахлибинский Б.В., Храпченко Н.И. Теория качества в науке и практике: Методологический анализ. - Л.: Изд-во Ленингр. Ун-та, 1989. - 200с.

[3] Тестовое задание отвечает всем логическим и формальным требованиям, предъявляемым к заданиям в тестовой форме, плюс требуется знание меры трудности, дифференцирующей способности, коррелируемости ответов испытуемых на задание с суммой баллов и др. См. с. 17 книги: Аванесов В.С. Форма тестовых заданий. М.: Центр тестирования, 2005. – 156с.

[4]Понятия «качество», «свойство», «признак» удобно рассматривать как обобщенный аналог английского понятия trait.

[5]Об этом процессе подробнее см., например, на стр. 87-105 книги: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука , 1982.- 199с.

[6] Bridgman P.W. The Logic of Phisics. N-Y, 1958. -228p.

[7] Подробнее об операционализации понятий см., напр.: Аванесов В.С. Тесты в социологическом исследовании. М.: Наука, 1982. –199с.

[8] Переработано по изданию: Аванесов В.С. Научные проблемы тестового контроля знаний. М. Иссл. Центр проблем качества подготовки специалистов. М.: 1994, с. 72-73.

[9] Code of Fair Testing Practices in Education. (1988) Washington, D.C.: Joint Committee on Testing Practices. (Mailing Address: Joint Committee on Testing Practices, American Psychological Association, 200 17^th Street, NW, Washington, D.C. 20036.).

[10] Яноши Л. Теория и практика обработки результатов измерений. М.: Мир, 1965, с.15.

[11] Свириденко В.М. О гносеологической природе постулата неизбежности погрешности измерения. _ вопросы философии, 1972.ю №6, с.24.

[12] Аванесов В.С. Форма тестовых заданий. Учебное пособие. Первое издание. М.: Иссл..Центр. 1991. –33с. Второе издание -М.: Центр Тестирования, 2005г. –155с.

[13] На занятиях для профессорско-преподавательского состава различных вузов автор этой статьи обращает главное внимание на овладение вариантом заданий с выбором нескольких правильных ответов. Такие задания позволяют проверить знания более высокого уровня, и сделать это полнее, глубже, точнее. Подробности - в книге «Форма тестовых заданий», изд. 2005г. или в статьях на веб-сайте:http://testolog.narod.ru

[14] В Latent Trait Theory вместо Т_i чаще других используется символ θ_i.

[15] Gulliksen, H. Theory of Mental Tests. N - Y. Wiley. 1950 - 486 p.

[16] С.160 пособия «Композиция тестовых заданий». М.: Центр Тестирования. 2002. –239с.

[17] Переработано по книге: Аванесов В.С. Основы научной организации педагогического контроля в высшей школе. М.: Иссл. Центр, 1989. –167стр.

[18] В русско- и англоязычной литературе часто пишут о «параллельных вариантах или формах тестов», что представляет существенную ошибку. Правильнее говорить о вариантах теста.

[19] Аванесов В.С. Форма тестовых заданий. Учебное пособие. 1 изд. М.: Иссл..Центр. 1991. –33с. 2 изд. -М.: Центр Тестирования, 2005г. –155с. Композиция тестовых заданий. 1 и 2 изд. 1996, 1998гг.; 3изд. М.: Центр Тестирования. 2002. –239с.

[20]Oetting, E.R., Thorton, G.C. Exercises in Psychological Testing. Harper & Row, Publishers, N-Y, 1968 - 229pp.

[21] Kuder G.F., Richardson M.W. The Theory of Estimation of Test Reliability // Psychometrika, 2: 151 - 160, 1937.

[22] Применение этой формулы читатель найдёт в книге «Композиция тестовых заданий», М.: Центр Тестирования, 2002с. С.216-217.

[23] Birnbaum A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability / F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores. Reading, Mass. : Addison - Wesly, 1968. - 568p.