ПРИМЕНЕНИЕ ТЕСТОВЫХ ФОРМ В Rasch Measurement

ПРИМЕНЕНИЕ ТЕСТОВЫХ ФОРМ В

RASCH MEASUREMENT

Аванесов В.С.

testolog@mail.ru

Статья напечатана в журнале "Педагогические измерения" №4, 2005 года.

Новая редакция – 2008 года

Исследуется вопрос связи тестовых форм с требованими Rasch Measurement (RM). Введена система обновленных определений и заданий. Показано несоответствие заданий с выбором одного правильного ответа требованиям RM.

Распространенное в литературе истолкование RM как частный модели Item Response Theory (IRT) представляется как ошибочное. В действительности, научный статус RM много выше IRT, поскольку представляет собой, по словам самого Г.Раша, своеобразное открытие в области измерений. В сущности, это открытие стало новой философией, методологией, теорией и методом психолого-педагогического и социологического измерения. RM позволяет получить достаточные оценки испытуемых и заданий на одной общей линейной шкале с примерно равными интервалами. IRT вобрала в себя достижения RM и в значительной мере развивалась на основе RM.

Ключевые слова: Rasch Measurement, научный статус Rasch Measurement, форма тестовых заданий, теория Rasch Measurement, культура Rasch Measurement.

1. Постановка проблемы. Вопрос взаимосвязи формы заданий и качества педагогических измерений долгое время не затрагивался в западной литературе. В числе первых авторов, указавших на непригодность заданий с выбором одного правильного ответа для качественного измерения в общественных науках, был датский математик Георг Раш. Он стал основателем направления в измерениях, получившего позже общее название Rasch Measurement [1]. В процессе математического обоснования качества имевшихся тогда тестов он указал на возможность угадывания правильного ответа, а следовательно, и на вероятную возможность привнесения большого количества ошибок в самый начальный этап процесса измерения.

В то время как американская практика тестирования широко применяла задания с выбором одного правильного ответа из трёх-пяти ответов, предлагавшихся на выбор, Г. Раш занял принципиальную позицию, не допускающую такие задания в практику педагогического измерения. Но слушать его не хотели.

А. Бирнбаум предложил т.н. трёхпараметрическую модель измерения, где возможность угадывания не только допускалась, но и можно было заранее учесть. Это делалось посредством введения специального параметра с в формулу

где - вероятность правильного ответа испытуемого под номером i, имеющего уровень подготовленности , при ответе на задание известного уровня трудности ;

, если ответ любого испытуемого на j-ое задание правильный;

- параметр крутизны так называемой характеристической кривой задания;

- параметр коррекции на угадывание правильного ответа в заданиях с выбором одного правильного ответа.

В литературе часто называют параметром угадывания, но это не точно. Не все испытуемые угадывают правильные ответы в заданиях с выбором. Некоторые знают эти ответы, а потому у них угадывания нет. Не случайно классик американской теории педагогических и психологических измерений F.M.Lord называл параметром псевдоугадывания. Тем самым он подчеркнул лишь потенциальное свойство этого показателя.

Г.Раш допускал использование в измерениях только тех заданий, где угадывание правильного ответа было невозможным по соображениям этики а также общего качества измерений. Поэтому G.Rasch считал параметр трёхпараметрической модели не нужным, и даже вредным. Равным образом он относился и к двухпараметрической модели измерения, в которой параметр принимает переменные значения, что приводит к пересечению характеристических кривых заданий теста, создаёт источники погрешности измерения, подрывает идеи монотонности и системности отображения интересующего свойства личности возрастающими, по трудности, заданиями теста. Недавние исследования G.Karabatsos'a подтвердили преимущество моделей G.Rasch для построения интервальной шкалы, по сравнению с 2-х и 3-х параметрическими моделями [2].

Для получения шкалы с примерно равными интервалами сам Г.Раш считал необходимым стабилизировать значения параметра для всех заданий. Только при этих условиях можно получить тест как систему заданий равномерно возрастающей трудности. Получилось так, что эта идея Г.Раша поразительным образом стала основной в определении педагогического теста, дававшегося мною, с некоторыми вариациями, во многих своих работах, начиная с 1976 года. В том числе и в тех работах, которые были написаны ещё до момента знакомства с трудами Г.Раша. Сейчас педагогический тест определяется автором этой статьи как содержательно-педагогическая система параллельных заданий равномерно возрастающей трудности, позволяющая качественно оценить структуру и измерить уровень подготовленности испытуемых.

К недавнему определению [3] здесь добавились слова «содержательно-педагогическая» и слово - «равномерно». Первое добавление связано с необходимостью преодолеть математико-статистический подход к определению теста, подчёркивая, тем самым, важность педагогической проработки вопросов содержания теста. Второе добавление ориентирует создателя теста на необходимость создания системы таких заданий, которые отображали бы идею нередуцированного, равномерного и одномерного отображения измеряемого континуума подготовленности.

В то время требованиям Г.Раша могли отвечать только задания открытой формы [4]. Но задания открытой формы имеют один очень существенный недостаток – при бланковой форме массового тестирования они нетехнологичны. Практика регистрации, распознавания и расшифровки ответов с помощью сканера и соответствующих программ порождает множество ошибок. Эта же практика является, кроме того, источником возникновения непроизводительного ручного труда и также масштабной коррупции. Вот почему в зарубежной практике масштабных профессиональных тестовых обследований (типа Educational Testing Service) эта форма никогда не применяется. Проблема заключается в том, чтобы иметь задания, не допускающие, с одной стороны, угадывание правильного ответа, и с другой стороны - отвечающие требованиям технологичности тестового процесса.

Исследовательская проблема данной статьи заключается в том, чтобы найти и предложить форму тестовых заданий, практически не допускающую, по мысли Г.Раша, угадывание правильного ответа, а с другой стороны - отвечающую требованиям технологичности тестового процесса. Короче и точнее проблема исследования в данной работе формулируется как исследование взаимосвязи тестовых форм требованиям Rasch Measurement.

Вряд ли случайно, что именно открытая форма тестовых заданий была выбрана для применения во второй и третьей части ЕГЭ. Аргументация в пользу выбора такой нетехнологичной формы звучала содержательно-правдоподобно, но технологически ошибочно и было коммерчески ориентированна на западные фирмы, производящие сканеры. Что помогло бывшему министерству образования организовать масштабное приобретение, за счет международного займа и бюджета дорогостоящих зарубежных сканеров, наладить массовый ручной труд по сканированию бланков и работу тысяч комиссий.

Из-за «освоенияю такой технологии», на местах с 2004 года стало появляться все больше выпускников школ с явно завышенными оценками по ЕГЭ. Причем, по оценке Я. Кузьминова, "брак" у них достигает уже 10% от общего количества, а значит, система нуждается в защите. В том числе путем привлечения правоохранительных органов и введения уголовной ответственности за мошенничество при сдаче ЕГЭ»[5]. У автора этой статьи есть основания полагать, что названные 10% - не предельное значение, а лишь начало деградации ЕГЭ [6]. Уже давно такая же участь постигла Единый Государственный Экзамен (ЕГЭ) в Древнем Китае. Там ЕГЭ рухнул под напором коррупции [7]. Опыт показывает, что названиям из трёх букв вообще доверять нельзя.

Не случайно настоящие тестовые службы на Западе в массовых обследованиях используют новые задания с выбором, используя далее автоматизированную считку результатов с бланков посредством оптических сканеров очень высокой производительности, от 5 до 50 тысяч бланков в час. Хороший пример успешного применения такой технологии даёт также тестовая служба Республики Казахстан.

ЕГЭ вначале рассматривалось как главное антикоррупционное средство [8], но в процессе исполнения, похоже, перенастроили из средства борьбы с коррупцией [9] на коммерциализацию российского образования, в паре с т.н. ГИФО. При этом низкое качество ЕГЭ не было принято во внимание, что было предопределено его ошибочной конструкцией. Для ГИФО эта ошибка сыграла роковую роль, но Правительство [10] продолжает финансировать этот чемодан без ручки: нести тяжело, а бросить жалко.

Пара ЕГЭ&ГИФО прожила и не долго, и не счастливо [11]. После безвременной кончины «своей половины ГИФО» ЕГЭ оброс множеством новых задач, вообще далеких от борьбы с коррупцией [12]. Что ещё более обнажило методологическую ущербность этого метафорически реализованного «экзамена».

Задачи исследования. В данной работе формулируются две основные задачи. Первая задача связана с определением тестовых форм, более подходящих для применения Rasch Measurement, и одновременно – принципам технологичности и антикоррупционности тестового процесса. Актуальность этой задачи вытекает из проведенной выше постановки проблемы.

Вторая задача касается уточнения научного статуса Rasch Measurement. Актуальность этой задачи вытекает из анализа западной научной литературы, где результаты работы Г.Раша представляются как частный случай применения т.н. однопараметрической модели измерения в теории, именуемой на Западе Item Response Theory (IRT). То же пишут и на русском языке. Между тем, история развития IRT свидетельствует о другом.

3. Концептуальная основа. В действительности IRT надо рассматривать как специальную теорию, производную от RM. Сам он оценивал свою теорию как открытие в области измерений. Однако, как это нередко бывало в истории науки, ни понять, ни признать это, по заслугам, при жизни автора не было дано, а потому научные заслуги Г.Раша, и то в неполной мере, были признаны только после смерти. Философские, теоретические и математические воззрения Г.Раша, наряду с предшествующим вкладом L.L.Thurstone, L.L.Guttman, Jane Loevinger и многих других стали важной основой формирования Item Response Theory. Кстати, Jane Loevinger была одной из немногих американских авторов, которая после J.Savage и B.Wright помогла в продвижении идей Г.Раша в практику психолого-педагогических измерений. Чуть позже к ним присоединились ещё несколько энтузиастов RM – B.Choppin, Nargis Panchapakesan, D.Andrich, G.Douglas, G.Masters и др.

Имеется несколько неудовлетворительных переводов названия IRT на русский язык. И этому есть объяснение. Проблема становления научной лексики не сводится к элементарному переводу смысла слов, а связана с постижением подлинных смыслов и культурным поиском консенсуса относительно смысла научных понятий в научном сообществе. Но ничего из названного в российских педагогических измерениях пока нет. Основу данного исследования составили также идеи и положения, выдвинутые в предыдущих работах [13].

В данной работе Item Response Theory переводится на русский язык как математико-статистическая теория измерений. Этот перевод не претендует на строгое научное определение, но открывает дорогу для формулирования научного определения IRT. Оно показывает, явно, что IRT формальная, специальная прикладная, полезная теория, помогающая разработке качественных педагогических тестов. Но из этого никак не следует, что она является педагогической теорией. Не случайно, что она никогда не входила в состав педагогического знания. Например, IRT не занимается ни формой, ни содержанием тестовых педагогических заданий, а также не занимается понятийным аппаратом собственно педагогической теории измерений [14]. А потому вряд ли IRT может претендовать на роль, как у нас некоторые пишут «современной теории педагогического тестирования». В этой связи вспоминается древнее изречение: «Quam quisque norit artem, in hac se exerceat»[15]

Данная работа опирается также на авторскую концепцию трёх основных понятий теории тестов, как части общей теории педагогических измерений. Выделены и определены такие понятия, как задания в тестовой форме, тестовые задания и педагогический тест. Каждому понятия были поставлены в соответствие система критериев, позволяющих безошибочно отличить одно от другого [16]. Работа опирается также на оригинальные источники по Rasch Measurement, в частности на философские работы самого основателя этого направления [17], на воспоминания о нём его последователей. Кроме того, данное исследование опирается на собственные исследования в области тестовых форм [18].

Этапы педагогических измерений. Принцип процессуальности педагогических измерений [19] позволяет рассматривать многие явления и определения в этой сфере как неизбежный процесс обновления, уточнения и развития. Например, взамен ранее опубликованного представления о трёх этапах тестового процесса [20], в настоящее время целесообразнее говорить о пяти этапах.

ИССЛЕДОВАНИЕ ФОРМЫ

Форма определяется как способ связи организации, упорядочения и существования содержания в общей композиции тестовых заданий. Сложность проблемы состоит в противоречии между теоретическим и практическим мышлением относительно формы. Большинству практиков тестового процесса форма заданий кажется знакомой и вполне понятной. А потому они не видят здесь никаких проблем. Соответственно, практики не считают нужным что-то менять в формах, учиться формотворчеству и методике разработки новых тестовых заданий. Из-за такой позиции практика тестирования начала деградировать: само тестирование быстро превратилось в коммерцию, а Единый Государственный Экзамен (ЕГЭ) - в квазитестовую деятельность, финансируемую из госбюджета и других источников.

Если практики видят в форме привычное средство создания теста, то теоретики обращают внимание на достоинства и недостатки существующих форм, на поиск дополнительных возможностей автоматизации тестового процесса, а также на поиск таких форм, которые позволяют проверить знания полнее, глубже, точнее, быстрее и объективнее. Вот почему исследование формы становится важной частью теории педагогических измерений и актуальным вопросом культурной практики.

Теоретическое мышление находит отношение практиков к форме ограниченным и вредным, тормозящим развитие тестовой культуры. Потому что от качества формы зависит понимание содержания заданий, технологичность тестового процесса, точность и эффективность измерений. Малейшее нарушение требования формы часто делает задание непонятным. Например, при нечетких инструкциях испытуемые не знают, как им надо отвечать на задания. Нарушение требований формы является также одним из самых распространенных источников погрешностей педагогического измерения. Можно выразиться ещё более определенно: пока преподаватели не овладеют методикой формообразования, нет надежд на появление качественных тестов. Например, результаты тестирования посредством самых распространенных заданий с выбором одного правильного ответа из 3-5 предлагаемых на выбор ответов, подвержены известным искажениям – тем большим, чем меньше число ответов в каждом задании. В таких заданиях, наряду с одним правильным ответом, есть несколько неправильных, но правдоподобных. Последние называют дистракторами (от англ. to distract – отвлекать); число дистракторов обычно колеблется от одного до 4.

Если задания с выбором одного из 4-5 ответов применяются в едином государственном экзамене (далее ЕГЭ), и при этом государство не проводит никакой коррекции результатов на догадку, то оно само становится инициатором и проводником методов, содержащих явные источники погрешностей измерения. Подобная ситуация возможна только в случае, если чиновники перестают бояться научной критики. Специалисты считают недопустимым применение тестовых результатов с надежностью ниже 0, 800 [21], последствия же такой практики – отрицательными как для личности, так и для государства. В западной практике применение методов оценки с низкой надежностью уже не раз рассматривались в судебном порядке как посягательство на интересы личности.

С целью преодоления феномена угадывания организаторами ЕГЭ принято решение использовать задания открытой формы, где угадывания нет. Именно из-за этого ответы по таким заданиям в ЕГЭ оцениваются в два раза выше; в предположении, что задания открытой формы труднее для испытуемых, чем задания с выбором одного правильного ответа из 4-5 ответов. Надо ли убеждать авторов таких упрощенных решений в том, что трудность заданий зависит, не от формы, а от содержания заданий! Не случайно даже в ЕГЭ ряд заданий с выбором оказывается труднее заданий открытой формы. Из этого легко понять, что принятая в ЕГЭ система оценивания трех частей т.н. КИМов порождает, несколько источников погрешностей измерения. Не случайно мера ошибочности этих КИМов-ЕГЭ стала главным секретом Правительства РФ.

Между тем, ошибки оценивания в частях ЕГЭ столь велики, что по некоторым дисциплинам результаты испытуемых не коррелируют, положительно, с результатами испытуемых по первой части «А», а иногда связаны с ними отрицательно. Особенно грешит этим часть «С», обрабатываемая на местах. В настоящий момент эта часть постепенно превращается в местный ресурс влияния на оценки качества образования в регионах и, одновременно, в очередной источник очередных ошибок ЕГЭ [22]. Не случайно общая статистика данных по ЕГЭ не даёт возможности оценить подлинные масштабы этого антиобщественного феномена.

Улучшению практики тестирования поможет улучшение форм тестовых заданий. Вместо заданий с выбором одного правильного ответа из 3-5 ответов надо переходить (где это оправданно) к заданиям с выбором нескольких правильных ответов. Посмотрим на некоторые примеры:

1. БУКВА «О» ПИШЕТСЯ В CЛОВАХ

1) упл…тнить сроки

2) обн…жить пороки

3) р…птать на судьбу

4) прил…скать собаку

5) отк…заться от услуг

6) опр…вдать поступок

7) угр…жать расправой

8) в…пиющий произвол

9) раск…лить сковороду

10) усл…жнить обстановку

2. В СТИЛЕ БАРОККО ПОСТРОЕНЫ

1) Смольный собор 5) Здания Сената и Синода

2) Зимний дворец 6) Мраморный дворец

3) Казанский собор 7) Александринский театр

4) Кунсткамера 8) Книжная палата

3. IRREGULAR VERBS

1) start	6) read	11) wear
2) swim	7) think	12) print
3) speak	8) complete	13) obtain
4) look	9) begin	14) finish
5) run	10) jump	15) draw

4. THE GERUND IS USED AS

subject

attribute

predicative IN THE SENTENCES

direct object

adverbial modifier

prepositional object

1) Deciding is acting.

2) Avoid making mistakes.

3) The rain poured down without ceasing

4) He succeeded in entering the university

5) A cuckoo began calling from a thorn tree

6) Swimming against the current was difficult

7) She felt a strange certainty of being watched

8) After talking to us for a moment he left to get his train

9) Our work is devoted to building democracy in our country

10) On arriving at the garden entrance, he stopped to look at the view

К заданиям даётся инструкция: Вашему вниманию предлагаются задания, в которых могут быть один, два, три и большее число правильных ответов. Обведите кружком номера всех правильных ответов!

Преимущество таких заданий – в практической невозможности угадать одно правильное сочетание правильных ответов из примерно тысячи возможных сочетаний. Что сводит вероятность угадывания всех правильных ответов очень близко к нулю. Испытуемые не знают точное число правильных ответов, что делает такие задания труднее. Помимо радикального снижения вероятности угадывания, повышения трудности и технологичности, задания данного варианта позволяют проверить знания полнее, глубже и точнее. В таких заданиях испытуемые могут получить от нуля до трёх баллов, что повышает вариацию данных и, как следствие, точность измерения.

Для создания параллельных вариантов теста полезно применять так называемые фасеты. Все элементы одного фасета считаются одинаково трудными по содержанию. Здесь они представлены в фигурных скобках. Каждому испытуемому компьютерная программа подбирает один вариант из фасета:

СКАЗАЛ (А)

1) Гамлет 6) Лаэрт

2) Офелия 7) Актёр

3) Полоний 8) Горацио

4) Клавдий 9) Гертруда

5) Фортинбрас 10) Розенкранц

6. КОРНИ УРАВНЕНИЯ

ПРИНАДЛЕЖАТ ПРОМЕЖУТКУ(КАМ)

1) [3;4) 4) [0; 2] 7) (-3; 1]

2) [-3;3] 5) [-2; 5) 8) (0; 5]

3) [-2;1] 6) (5; 9] 9) (4;10)

7. РЕШЕНИЕ НЕРАВЕНСТВА

1) х > 3 6) x≤ -3

2) х < 3 7) x ≥ 3

3) х > -1 8) x ≥ -1

4) x < - 1 9) x > 1

5) x < 1 10) x ≥ -3

8. СИЛА ХАРАКТЕРИЗУЕТСЯ

1)знаком 6)временем действия

2) плечом 7) точкой приложения

3) моментом 8) числовым значением

4) проекцией 9) единицей измерения

5) направлением

9. {Полупроводники, диэлектрики, ферромагнетики}

1)медь 7) стекло 13) кобальт

2) селен 8) золото 14) кремний

3) олово 9) фарфор 15) германий

4) эбонит 10) мышьяк 16) алюминий

5)стекло 11) серебро

6) железо 12) свинец

10. ЗАКОН ДИНАМИКИ ДЛЯ ВРАЩАЮЩИХСЯ ТЕЛ ВКЛЮЧАЕТ ПОНЯТИЯ

1) масса 5) импульс силы

2) ускорение 6) момент инерции

3) момент сил 7) угловое ускорение

4) момент импульса 8) количество движения

Кроме заданий с выбором нескольких правильных ответов можно предложить также использовать сдвоенные задания в тестовой форме. Например:

11. ЧТО ВЫ ЧИТАЕТЕ, МИЛОРД? – СПРОСИЛ (А)

1) Офелия 5) Лаэрт

2) Полоний 6) Горацио

3) Клавдий 7) Гертруда

4) Гамлет 8) Фортинбрас

«СЛОВА, СЛОВА, СЛОВА» - последовал ответ

1) Офелии 5) Лаэрта

2) Полония 6) Гамлета

3) Клавдия 7) Гертруды

4) Горацио 8) Фортинбраса

За правильный ответ в каждом из сдвоенных заданий испытуемый получает по одному баллу. Таким образом, за такие задания оценки могут варьироваться от нуля до двух. Это обстоятельство так же благотворно отражается на повышении точности измерения.

12. {HELIX POMATIA} ОТНОСИТСЯ К ТИПУ

1) Nemthelminthes

2) Annelide

3) Mollusca

4) Arthropude

КЛАССУ 1) gasropode

2) Bivalvia

3) Nematoda

4) Crustacea

ОТРЯДУ 1) Bassommatophora

2) Lumbricomorpha

3) Copopoda

4) Stylopommatophora

13. ВОССТАНИЕ ПОД РУКОВОДСТВОМ Т.КОСТЮШКО НАЧАЛОСЬ

1)23 марта 1791г. 4) 7 мая 1794 г.

2)3 мая 1791г. 5) 6 июня 1794 г.

3)7 июня 1791г. 6) 24 марта 1794 г.

В ГОРОДЕ 1) Краков

2) Варшава

3) Вильно

4) Лодзь

5) Люблин

ОПРЕДЕЛЕНИЕ НАУЧНОГО СТАТУСА RASCH MEASUREMENT

При определении научного статуса какой-либо теории естественно поставить вопрос о её сущности. Rasch Measurement – это математико-статистическая теория, позволяющая оценить вероятность правильного ответа на основе функции от латентных параметров уровня подготовленности испытуемых и трудности заданий. Она используется и для множества других полезных целей.

Латентными называются положительные и отрицательные качества личности, не поддающиеся непосредственному измерению. Примерами являются «подготовленность студентов», «знание учебной дисциплины», «способность понимать» «интеллектуальное развитие» и многое другое. Попытки измерения подобных качеств [23] на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности.

G.Rasch рассматривал матрицу тестовых данных как результат сопряжения множества испытуемых с множеством заданий. Он попытался формализовать идею зависимости результатов этого сопряжения от соотношения уровня подготовленности каждого испытуемого с мерой трудности каждого задания. Позже, в 1976 г., эта идея была развита им в виде так называемого фрейма взаимодействия двух множеств [24].

Ф = P (O, A),

где Ф - фрейм сопряжения (взаимодействия);

О - множество заданий;

A - множество испытуемых;

Р - исход, результаты взаимодействия множеств О и А.

Модели G.Rasch, A.Birnbaum, и F.M.Lord имеют много общего с математической точки зрения, однако они различаются концептуально [25]. Различны они и по генезису. F.M.Lord, его предшественники M.W.Richardson и D.N. Lawly начинали с поисков математической модели репрезентации эмпирических данных. Подход же G.Rasch был априорным, теоретическим, направленным на создание математической модели измерения и получения такой единицы педагогического измерения, с помощью которой можно было бы, на одной шкале, сравнить уровень знаний студента с уровнем трудности задания. Практические преимущества этого достижения в области педагогических измерений последних лет трудно переоценить.

Первое преимущество вытекает из стандартизованного характера полученной единицы измерения. Как и всякая стандартная единица, она представляет собой результат преобразования исходных данных, что дает возможность объективно сравнить достижения разных студентов, по разным учебным дисциплинам.

Значения и могут быть, для начала, аппроксимированы из матриц тестовых результатов, похожих на пример данных табл. 1.

Пример таблицы тестовых результатов

№№	Х₁	Х₂	Х₃	Х₄	Х₅	Х₆	Х₇	Х₈	Х₉	Х₁₀	Y_i	p_i	q_i	p_i/q_i	lnp_i/q_i
1.	1	1	1	0	1	1	1	1	1	1	9	.90	.10	9	2.20
2.	1	1	0	1	1	1	1	1	1	0	8	.80	.20	4	1.39
3.	1	1	1	1	0	1	1	0	1	0	7	.70	.30	2.33	.85
4.	1	1	1	1	0	1	0	1	0	0	6	.60	.40	1.50	.40
5.	1	1	1	1	1	1	0	0	0	0	6	.60	.40	1.50	.40
6.	1	1	1	1	0	0	1	0	0	0	5	.50	.50	1.00	0
7.	1	1	0	1	1	0	1	0	0	0	5	.50	.50	1.00	0
8.	1	1	1	1	1	0	0	0	0	0	5	.50	.50	1.00	0
9.	1	0	1	0	1	1	0	0	0	0	4	.40	.60	.66	-.42
10.	0	1	1	0	0	0	0	1	0	1	4	.40	.60	.66	-.42
11.	1	1	1	0	0	0	0	0	0	0	3	.30	.70	.43	-.84
12.	1	1	0	0	0	0	0	0	0	0	2	.20	.80	.25	-1.39
13.	1	0	0	0	0	0	0	0	0	0	1	.10	.90	.11	-2.21
R_j	12	11	9	7	6	6	5	4	3	2	65
W_j	1	2	4	6	7	7	8	9	10	11
p_j	.923	.846	.692	.538	.462	.462	.385	.308	.231	.154	5
q_j	.077	.154	.308	.462	.538	.538	.615	.692	.769	.846
p_jq_j	.071	.130	.213	.248	.248	.248	.236	.213	.178	.130
q_j/p_j	.083	.182	.445	.859	1.164	1.164	1.597	2.246	3.329	5.493
lnq_j/p_j	-2.489	-1.704	-.810	-.152	.152	.152	.468	.809	1.202	1.703

В таблице находятся такие статистики:

р_j - доля правильных ответов испытуемого i по всем заданиям теста;

q_i - доля неправильных ответов того же испытуемого i по всем заданиям теста;

р_j /q_i - потенциал знаний испытуемого i; ln(p/q) G.Rasch называет логитом знаний [26]. Симметрично, логарифмическую меру трудности заданий ln q_j/p_j он же назвал логитом трудности задания. Логарифмические оценки уровня знаний и уровня трудности заданий дали возможность сравнить их, что оказало огромное влияние на развитие зарубежной педагогической теории и практики. Впервые появилась возможность непосредственно сопоставить любое задание с любым испытуемым, и на основе такого сопоставления вычислить вероятность получения правильного ответа. На основе такого сопоставления ЭВМ подбирает очередное задание в системах адаптивного обучения и контроля знаний. Если вероятность низкая, то подбирается задание полегче, если высокая, то потруднее. Общий принцип подбора заданий – в районе 50% вероятности получения правильного ответа.

Второе преимущество вытекает из специфических особенностей модели G.Rasch. Получаемые с ее помощью оценки знаний, в силу относительной независимости от конкретного подбора того или иного задания, приобретают характер достаточно объективированных результатов, что также положительно отражается на качестве оценок, используемых в педагогическом контроле. Эта идея превратилась в новое для науки положение о т.н. специфической объективности, как основе для получения справедливых оценок, независимых ни от конкретного набора заданий, ни от подбора групп испытуемых. Не случайно измерения по Г.Рашу в западной литературе называют model based measurement.

Третье преимущество связано с возможностями получения интервальной шкалы. Rasch Measurement имеет все достаточные признаки фундаментальной теории. Эта теория сравнительно простую аксиоматику, сводящуюся к простым утверждениям: Интересующее свойство личности существует в латентном состоянии, оно устойчиво и потому измеряемо с некоторой погрешностью. Вероятность правильного ответа испытуемого зависит от соотношения уровня его подготовленности и от уровня трудности задания. Эта вероятность может быть описана так называемой логистической функцией, которая появилась в 1958 году

где , если ответ любого испытуемого на j-ое задание правильный;

- уровень знаний, латентная переменная;

- уровень трудности j-го задания теста, измеряемой на латентном континууме знаний.

Теория Г.Раша оказалась непротиворечивой, эффективной, имеющей подтверждения в тысячах практических приложений. Выдвинутый им т.н. принцип separability of estimates позволил освободиться от неустойчивых статистик на выборках заданий и выборках испытуемых для получения интересующих параметров.

Четвертым преимуществом рассматриваемой модели является сравнительная устойчивость рассчитываемых значений уровня знаний и трудности задания. Это позволяет утверждать: однопараметрические модели удачно оценивают интересующие качества личности, недоступные непосредственному измерению.

Наконец, можно говорить и о методологии Rasch Measurement, которая основана на философии объективного познания, имеет собственный метод т.н. фундаментального измерения, с собственной единицей измерения, с уже упоминавшимися свойствами интервальной шкалы. Эта методология отвечает всем требованиям, выдвигавшимся ведущими учеными к психологическим и педагогическим измерениям:

1. Линейность, что допускает возможность применения арифметических свойств и операций.

2.Параметры заданий и испытуемых не должны быть взаимно зависимы.

3.Метод измерения должен быть сравнительно легким.

4.Одномерность измеряемого свойства.

5.Монотонность отображения свойства в числовую шкалу [27].

Можно также говорить и о процессе и о культуре Rasch Measurement. Процесс состоит их этапов, культура включает в себя философские, теоретические и метрические основы измерения.. Rasch Measurement имеет известные преимущества построения линейной интервальной шкалы, с достаточной статистикой, а также эффективные математические обоснования. А потому можно определенно утверждать, что Rasch Measurement – это не просто упрощенная однопараметрическая модель Item Response Theory, как это обычно считается на Западе, а другая культура измерения.

В центр этой культуры можно поставить следующие ведущие идеи:

1. Model-based measurement, что можно истолковать как принципиально иной подход к анализу данных. Если обычно стараются найти математическую модель для наилучшего описания данных, то здесь, наоборот, данные должны соответствовать модели измерения. Многие западные специалисты этому требованию Г.Раша придавали личностно-психологическое истолкование неадекватности позиции автора. В то время как здесь имела место другая исследовательская методология и другая, более продвинутая культура измерений.

2. Идея зависимости вероятности правильного ответа испытуемых. Она выражается соответствующей функцией вероятности правильного ответа испытуемого на задание, в зависимости от разности двух соизмеримых значений - уровня его подготовленности и меры трудности задания.

3. Одномерность, что проявляется в стремлении измерять только одно интересующее свойство личности. И в ЕГЭ, и в тестах, обычно делается попытка измерить уровень подготовленности испытуемых по какой-либо одной учебной дисциплине.

4. Идея т.н. локальной независимости результатов, которая формулируется как аксиома: для испытуемых одинакового уровня подготовленности: вероятность правильного ответа на одно задание не должна зависеть от вероятности правильного ответа на любое другое задание теста.

5. Параметры заданий и испытуемых не должны быть взаимно зависимы.

Выводы:

1. В практике педагогических измерений не хватает заданий, минимизирующих угадывание со стороны испытуемых. Следствием угадывания являются погрешности измерения и результаты, далекие от целей образовательной деятельности. Ошибочное применение задания с возможностью угадать один правильный ответ в системе текущего и итогового контроля ухудшает качество образования. Массовое применение таких заданий в Едином Государственном Экзамене (ЕГЭ) наносит российскому образованию непоправимый вред. Внедрение таких заданий в практику ЕГЭ со стороны Правительства РФ предлагается прекратить, равно как и сам ЕГЭ, не соответствующий известным критериям качества педагогической информации. Вместо ЕГЭ давно пора было создать систему Национального тестирования, где субкультурным методам места нет.

2. В статье предложены варианты заданий, минимизирующие возможность угадывания правильных ответов. Эти задания труднее заданий с выбором одного правильного ответа, они проверяют знания полнее, глубже и точнее. Они перспективны для образовательных технологий XXI века.

3. Вряд ли правильно рассматривать Rasch Measurement только как однопараметрическую модель IRT. Rasch Measurement является лучшим методом для построения педагогического теста как системы заданий равномерно возрастающей трудности, позволяющей качественно оценить структуру и измерить уровень подготовленности испытуемых. Гораздо правильнее было бы говорить о методологии и о культуре Rasch Measurement, что позволит по-новому оценить это выдающееся достижение в области педагогических измерений, измерений в общественных науках и в медицине.

Литература

[1] Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests. With a Foreword and Afteword by B.D. Wright. The Univ. of Chicago Press. Chicago & London, 1980. -199 рp..

[2] Karabatsos G. Axiomatic measurement theory as a basis for model selection in item response theory. Paper presented at 32^nd annual conference of the Society for Mathematical Psychology, Santa Cruz, CA. 1999, July.

[3] Аванесов В.С. Определение исходных понятий теории педагогических измерений. «Педагогические измерения» № 3, 2005г

[4] О формах заданий см. например: Аванесов В.С. Форма тестовых заданий . М.: Центр тестирования, 2005г.

[5] http://schools.perm.ru/modules/news/article.php?storyid=1018

[6] Процесс деградации активизируется с вторжением ЕГЭ в Москву, где число мошенников несоизмеримо выше, чем в российской провинции.

[7] Аванесов В.С. Из глубины веков//Педагогическая диагностика №1,2003г.Стр.3-7. См. также сайт: http://testolog.narod.ru

[8] В обращении к гражданам страны по радио, 18 декабря 2003 года, Президент России Владимир Путин сообщил о двух целях ЕГЭ. Вторая из названных им целей - снизить уровень коррупции в образовательной сфере.

[9] На прямой вопрос корреспондента РИА «НОВОСТИ»: «…единый государственный экзамен (ЕГЭ) вводится для того, чтобы победить коррупцию на вступительных экзаменах в вуз» бывший министр образования В.М.Филиппов ответил так: «-Вовсе не для этого. И не для того…. Могу совершенно официально сказать: борьба с коррупцией - это вообще работа других ведомств, а не Министерства образования. Кроме того, я считаю, что коррупцию в отдельно взятой отрасли вообще нельзя победить: ни в налоговой полиции, ни в милиции, ни тем более в образовании, потому что в образовании умные люди собрались: все равно что-нибудь придумают". После чего рассказал корреспонденту ректорский анекдот на эту тему: "К ректору одного института приходит его близкий друг и говорит: "Ты знаешь, что у тебя берут взятки на экзаменах? Ректор отвечает: "Не может быть". "Ну, как не может быть! У моей дочки попросили 5 тысяч долларов за поступление!" Тогда ректор отвечает своему другу: "Давай с тобой поспорим на пять тысяч долларов, что она поступит без взятки!»

[10] Аванесов В.С. Образовательные стратегии Российского государства. Доклад. Сб. «Россия в современном мире. Т.4 . Под. Ред. Ю.С.Пивоварова. М.: ИНИОН, РАН, 2005. Депонировано. См.: сайт автора http://testolog.narod.ru

[11] Поскольку вузы, согласившиеся принимать абитуриентов по сертификатам ЕГЭ, стали заинтересованными в получении высоких ГИФО от приходящих к ним абитуриентов, оценки по ЕГЭ стали искусственно и неудержимо подниматься, как под напором коррупции, так и из-за меркантильных, сиюминутных интересов самих вузов. В итоге Правительство РФ было вынуждено заплатить вузам завышенные суммы денег, которые до начала «эксперимента» не планировались. И поскольку никакие административные меры не помогали преодолению дефекта пары ЕГЭ&ГИФО, было принято кабинетное решение о приостановке ГИФО по результатам ЕГЭ. В данном случае слово «приостановка» может означать временное отступление от замысла, с последующим возвратом к ГИФО после того, когда Правительство научится объективно измерять знания посредством ЕГЭ. Теперь нам обещают, что будут созданы «новые тесты». Надо ли напоминать, что в ЕЭ тестов не было и нет.

[12] Оценка образовательных достижений в рамках национальных экзаменов. Материалы и тезисы докладов Международной конференции. 13-15 декабря 2004г.С.11-12. – М.: Изд-во «Уникум-центр», 2005. – 279с.

[13] Аванесов В.С. Методологические и теоретические основы тестового педагогического контроля. Дис. …докт. пед. наук. С-Петербургcкий госуниверситет, 1994. –339с.

[14] Аванесов В.С. Основы педагогической теории измерений. Педагогические измерения №1, 2004.

[15] «Лат. Пусть всякий упражняется в том искусстве, которое он знает»

[16] Аванесов В.С. Композиция тестовых заданий. М. Центр тестирования, 2002.

[17] Rasch, G. On Specific Objectivity: An Attempt of Formalizing the Request for Generality and Validity of Scientific Statements / Danish Yearbook of Philosophy. 1977, v. 14, p. 58 - 94, Munksgaard, Copenhagen. - 216p.

[18] Аванесов В.С. Форма тестовых заданий. С.8. 2 изд. М.: Центр тестирования, 2005.- 155с.

[19] Основы педагогической теории измерений. Педагогические измерения №1, 2004

[20] Аванесов В.С. Этапы разработки теста. В.сб. «Конструирование педагогических тестов по русскому языку как иностранному». Доклады и сообщения. ЦМО МГУ им. М.В. Ломоносова, 15-16 апреля 2003 года . М.: 2003, с.7-12.

[21] Вот что, например, пишет Jerard Kehoe: In any event, important decisions concerning individual students should not be based on a single test score when the corresponding KR-20 is less than .800. Kehoe, Jerard (1995). Basic item analysis for multiple-choice tests. Practical Assessment, Research & Evaluation, 4(10). Retrieved October 16, 2005 from http://pareonline.net/getvn.asp?v=4&n=10 .

[22] Как показали рассекреченные зарубежной радиостанцией «Свобода» данные по ЕГЭ 2005 года, на одной из территорий РФ знания учащихся, например, по химии в течение только одного года улучшились в 28 раз. Как сообщается, в 2006 году была проведена перепроверка экзаменационных работ с идентичными результатами в 167 пунктах. По итогам аннулированы "некоторые работы в 19 пунктах проведения экзамена..."Болотов В. А. Об итогах эксперимента по введению Единого Государственного Экзамена в 2006 г. и задачах на 2007 год. Народное Образование , №1, 2007г. С. 18.

[23] Понятия «качество», «свойство», «признак» удобно рассматривать как обобщенный аналог английского понятия trait.

[24] Rasch, G. On Specific Objectivity: An Attempt ofFormalizing the Request for Generality and Validity of Scientific Statements / Danish Yearbook of Philosophy. 1977, v. 14, p. 58 - 94, Munksgaard, Copenhagen. - 216p.

[25] McArthur D.L. Educational Assessment: A Brief History /McArthur D.L. (Ed). Alternative Approaches to the Assessment of Achievement. Kluver Academic Publishers, Boston, 1987.- 268p.

[26] Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests. With a Foreword and Afteword by B.D. Wright. The Univ. of Chicago Press. Chicago & London, 1980. -199 рp.

[27] D.Andrich. Relatioship Between the Thurstone and Rasch. (Approaches to Item Scaling Appl. Psychol. Measurement V2. 1978 pp.451-462).