Эффективность тестов и тестовых заданий

К этой статье автор вынужден написать некоторое предисловие. Она была написана десять лет назад по материалам пятой главы докторской диссертации. Там третий параграф этой главы так и назывался – Эффективность тестов и тестовых заданий. В силу того, что в своё время статья не была опубликована достаточным тиражом, а материал этой статьи включался мною в пакет конспектов своих лекций, именно этот материал стал иногда появляться в работах других авторов, без каких-либо ссылок на меня. Поскольку такие случаи начинают встречаться чаще, это может свидетельствовать, по меньшей мере, о двух явлениях. Во-первых – заметный рост интереса к моим работам и, во-вторых, о проявлениях некоторых элементов научной недобросовестности. Есть и такой случай, когда мою классификация знаний приписана другому, давно покойному зарубежному автору. Жаль только, что тот не может порадоваться такому «подарку».

Что поделаешь, каковы времена, таковы и нравы. А времена, как сказал поэт, не выбирают, в них живут и умирают.

Аванесов В.С.

ЭФФЕКТИВНОСТЬ ПЕДАГОГИЧЕСКИХ ТЕСТОВ И ТЕСТОВЫХ ЗАДАНИЙ

С начала ХХ века в научный оборот теории тестов вошли два критерия качества тестовых результатов - надежность и валидность. Оба они продолжают оставаться главными и в наши дни. Однако по мере становления новой теории тестов начинает ощущаться необходимость расширения числа критериев, хотя бы до трех. В качестве третьего в данной работе предлагается рассмотреть критерий эффективности.

Эффективность теста (от лат. effectus - исполнение, действие). Сравнительный критерий, позволяющий сравнить тесты. Эффективным можно назвать тест, который лучше, чем другие тесты, измеряет знания студентов интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это - по возможности, одновременно.

Проблема эффективности педагогических тестов и тестовых заданий является частью общей проблемы эффективности форм и методов педагогической деятельности. Естественно поставить вопрос - почему тестирование относятся к эффективной форме организации контроля знаний студентов высшей школы, а сам тест считается также эффективным и объективным методом диагностики уровня и структуры знаний? Краткий ответ на этот вопрос заключается в том, что настоящий тест разрабатывается на научной основе, он технологичен, не только легко поддается автоматизации, но и является, в сущности, основным средством автоматизации контроля; он экономичен, потому что не требует тех больших затрат живого труда преподавателей. Тест объективен в той мере, в какой удается ограничить процесс тестирования от субъективизма, а порой и от произвола некоторых преподавателей за счет предоставления одинакового времени, одинаковых условий и правил оценки для всех испытуемых, без исключения. И наконец, тест рефлексивен в смысле возможностей оценки качества тестовых результатов: без оценки погрешности измерения и адекватности тестовых данных поставленной задачи результаты не признаются как тестовые, т.е. заслуживающими доверия.

Эффективность определяется как понятие, производное от результата (эффекта). Поскольку эффект относится к числу измеряемых понятий, имеющим четко выделенный состав эмпирических референтов, то и эффективность, получаемая обычно от деления эффекта на затраты, время, ресурсы и т.п., тоже относится к числу измеряемых понятий.

ОПРЕДЕЛЕНИЕ 1. Эффективным можно назвать тест, который лучше, чем другие тесты, измеряет знания студентов интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это - по возможности, одновременно. С понятием "эффективность" сопряжено и близкое к нему по содержанию понятие "оптимальность". Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым поочередно или вместе.

В определении эффективности теста обращается внимание на два ключевых элемента - это число заданий теста и уровень подготовленности студентов. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий. Тест с меньшим числом заданий в таком случае можно называть сравнительно более эффективным.

Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный момент студентов. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню. Поскольку такого рода частных идей, размывающих концепцию валидности, оказалось немало, ощущается необходимость обогатить их методами обоснования и объединить концепцией эффективности.

Одно из основных требований объективности тестирования

- давать всем студентам одинаковый набор заданий и одинаковое время на выполнение. Но вместе с тем легко понять практическую бесполезность того, чтобы давать слабым студентам трудные задания; большинство студентов, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим студентам, потому что и здесь высока вероятность, но теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том, и в другом случае студенты не будут различаться между собой. Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности студента.

Из этих соображений легко предположить, что самый эффективный тест - это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых. Так же легко предположить, что ни один заранее сделанный тест никогда не бывает в точности соответствующим уровню подготовленности конкретных испытуемых. Они все разные, и потому для эффективного измерения требуются тесты разного уровня трудности.

Соответствие уровня трудности теста уровню подготовленности студентов можно попытаться оценить показателем количества информации, получаемой в процессе измерения. Поскольку в реальной практике студенты заметно различаются по своим знаниям, то вопрос об эффективности тестирования каждого студента определенным набором заданий, в зависимости от уровня его подготовленности, становится одним из главных вопросов в современной теории и практике тестирования. Вот почему в современных тестовых системах моделируется адаптивный тест, задания которого подбираются в зависимости от текущих ответов испытуемого. При этом тест, как костюм - полуфабрикат, подгоняется под студента, и потому в англоязычной тестовой литературе эффективное тестирование по принципу адаптации заданий для испытуемого названо tailored testing.

Эффективность теста можно попытаться оценить с точки зрения его дифференцирующей способности; последняя тем выше, чем лучше видны различия между тестовыми баллами студентов. В качестве одного из возможных показателей дифференцирующей способности теста можно использовать дисперсию. Если, например, имеются два теста по одной и той же учебной дисциплине и один из них имеет большую дисперсию, чем второй (в той же самой группе), то при прочих равных условиях тест с большей дисперсией можно считать эффективней теста с меньшей дисперсией. Отношение большей дисперсии к меньшей при одинаковом, например, числе заданий, с последующим умножением на сто, может служить в качестве одного из показателей сравнительной эффективности теста с позиции его дифференцирующей способности.

И, наконец, эффективность теста можно попытаться оценить с точки зрения дифференцированной точности измерения знаний студентов различного уровня подготовленности. Это, по сути, идея уровневой дифференцированной надежности теста, которая может быть методически реализована только в новой теории тестов. В классической теории тестов мы имели дело с усредненным показателем точности измерения. Между тем, даже из самых общих соображений можно сказать, что ошибка измерения должна зависеть от соответствия уровня трудности теста уровню знаний студента. Чем меньше такое соответствие, тем большей должна быть ошибка измерения. Иначе говоря, для качественного измерения знания студента нужен тест соответствующего ему уровня трудности. Теперь пришло время синтеза различных сторон этого понятия в одно целое.

ОПРЕДЕЛЕНИЕ 2. Тест называется эффективным для измерения знаний студентов с уровнем, соответствующим точке континуума знаний, если он обеспечивает в этой точке максимум информации о значении при минимуме числа заданий. Эффективность измерений достигается за счет дифференцированного подбора заданий требуемого уровня трудности для каждого студента, имеющего уровень знаний.

Если сравнить понятие эффективность с понятиями надежность и валидность, то самое существенное отличие нового понятия от двух традиционных заключается в переходе от усредненного показателя к дифференцированному. Достаточно вспомнить, что надежность относится к тесту, состоящему из зафиксированного числа заданий, предъявляемых всем испытуемым; только тогда можно найти коэффициент надежности теста, как усредненную меру точности измерения. Аналогично, усредненно, находится и валидность теста. Эффективный же тест, напротив, предполагает отход от усреднения и от фиксированного для всех испытуемых числа заданий. Число выбираемых заданий меняется в процессе тестирования, в зависимости от ответа каждого испытуемого. Таким образом, появляется возможность сформулировать еще одно определение.

ОПРЕДЕЛЕНИЕ 3. Эффективное тестирование - это обязательно индивидуализированное измерение знаний каждого испытуемого с помощью оптимального по трудности и минимального по количеству набора заданий.

При оценки валидности всем студентам интересующей группы обычно даются все задания теста, начиная от самых легких и кончая самыми трудными. При оценке же эффективности теста это делать не нужно, если есть алгоритм выбора очередного задания оптимального уровня трудности, в зависимости от ответа студента на предыдущее задание. При эффективном тестировании каждый студент последовательно получает такие задания, чтобы на каждом шаге разность между значениями параметров подготовленности испытуемого и трудности задания уменьшалась по модулю, постепенно приближаясь к нулю. Именно поэтому эффективный тест - это всегда адаптивный тест, с дифференцированной, по сути, валидностью для каждого уровня.

Таким образом, эффективный тест представляет собой не одну систему заданий, а множество систем заданий, каждая из которых является оптимальной для измерения знаний на определенном уровне подготовленности .. Оптимум систем достигается подбором эффективных заданий для каждой из них. Эффективность тестовых заданий. Если эффективность теста достигается оптимальным подбором эффективных заданий, то прежде чем исследовать методы такого подбора, полезно поставить естественный вопрос - почему ранее ничего не говорилось и не писалось о "надежных заданиях", не менее необходимых для достижения требуемого уровня валидности тестовых результатов (непривычность словосочетания, взятого в кавычки, бросается в глаза: в профессиональной среде так не говорят и не пишут, а редкие исключения лишь подчеркивают общую тенденцию в истолковании надежности и валидности как обобщенных критериев качества тестовых результатов а в целом, а не отдельных его заданий.

Из самых общих соображений легко представить, что эффективный тест не может состоять из неэффективных заданий. В таком случае естественно поставить вопрос о признаках, которые отличают эффективное задание от неэффективного. С точки зрения содержания, эффективное задание проверяет важный элемент содержания учебной дисциплины, который нередко называют ключевым для требуемой структуры знаний студентов. В тест соответственно включаются только такие задания, которые эксперты признают в качестве ключевых элементов изучаемой учебной дисциплины. Здесь можно сформулировать понятие дифференцированной эффективности теста, в соответствии с которым тест эффективен только в той точке континуума знаний, для которой более всего подходит набор его заданий по уровню трудности. Тест не может быть эффективным вообще, на всем диапазоне подготовленности студентов. Он может быть более эффективен на одном уровне знаний и менее - на другом. Именно этот смысл вкладывается в понятие дифференциальной эффективности теста в процессе раскрытия идеи введения нового критерия.

Практически не исследован в литературе формальный аспект эффективности тестов, если под этим понимать вопрос зависимости эффективности от формы. Здесь понятие "эффективность" может включать в себя такой понятийный индикатор как "формальная чистота", способствующий лучшему восприятию смысла задания, четкой оценке и безошибочности учета тестовых баллов. Нарушение тестовой формы всегда - а это хотелось бы подчеркнуть - приводит к худшему выражению содержания и к худшему пониманию смысла задания студентами. Вот почему можно говорить о зависимости эффективности задания от правильности формы.

Рассмотрим, казалось бы, элементарную задачу выбора заданий в зависимости от их формы и вида. В литературе по тестам часто пишется о недостатках заданий с выбором ответов, из-за возможности угадать правильный ответ с той или иной вероятностью; последняя зависит от числа предлагаемых ответов, и потому чем меньше число ответов, тем выше вероятность такой догадки. Соответственно, тем хуже считается задание. Именно этим суждением и объясняется обычное стремление разработчиков тестов иметь в заданиях не по два ответа, где вероятность угадывания равна 1/2, и не три, где эта вероятность равна 1/3, а хотя бы четыре или пять. И если стоит вопрос выбора - какое задание лучше - с двумя или с большим числом ответов, то обычно считается, что задания с большим числом ответов лучше, со ссылкой на тот же аргумент о снижении вероятности угадывания правильного ответа в случае незнания.

Решение задачи поиска самых эффективных заданий теста нередко бывает полезно начать с попытки определения самых, наоборот, неэффективных заданий, что позволяет уменьшить размер обрабатываемых матриц, улучшить интерпретируемость результатов и быстрее, т.е. эффективнее, решить эту задачу.

Хороший материал для выбраковки неэффективных заданий дают методы корреляционного, регрессионного и факторного анализа.

Первый и второй позволяют оценить так называемый в статистике чистый вклад каждого задания в общую вариацию тестовых баллов, в то время как факторный анализ является хорошим методом проверки гомогенности теста.

Выводы: В этой работе сделана попытка выйти за пределы традиционного использования двух основных критериев качества разработки тестов посредством введения в научный оборот третьего критерия - эффективности теста и тестовых заданий.

Результат измерения можно назвать эффективным, если он дает максимум возможной информации при измерении знаний студентов определенного уровня. Эффективность достигается за счет точного соответствия уровня трудности задания с уровнем знаний испытуемого, что технологически реализуется посредством алгоритмов адаптивного тестирования.