Тридцать восемь попугаев и одно попугайское крылышко



Если экзамен – измерительный прибор, то принципиально важным является то, каким образом получается результат измерения и в каких единицах он исчисляется.

На егэ каждое задание имеет определенную номинальную стоимость. Сумма номинальных стоимостей заданий, выполненных экзаменуемым, составляет его первичный балл, который, однако, носит только вспомогательный характер. В соответствии с некоторой нелинейной шкалой (о способе построения и особенностей которой речь пойдет далее) он пересчитывается в тестовый балл, который и является результатом сдачи единого государственного экзамена.

Тестовый балл исчисляется по стобалльной шкале, поэтому далее происходит еще один раунд преобразований, связанный с определением ее диапазонов, соответствующих оценкам привычной «пятибалльной» [8] шкалы выпускного экзамена. Границы этих диапазонов различны для разных предметов и меняются от года к году. Переход в 2009 г. с «пятибалльной» шкалы на двухбалльную (зачет-незачет) ситуации не изменил, зато отчетливо выявил смысл манипуляций с границами диапазонов. Она имеет целью исключительно управление долей различных оценок, в первую очередь, – двоек, высокий процент которых вызывает широкий общественный резонанс.

С оценками выпускного экзамена ситуация не менее сложная. До недавнего времени здесь тоже присутствовал дополнительный раунд преобразований, превращавших тестовые баллы во вступительные. Правила этих преобразований устанавливались вузами самостоятельно, что, хотя и давало возможность как-то учесть специфику каждого из них, но окончательно запутывало картину, не позволяя абитуриенту получить однозначное представление о том, насколько успешен его результат. С 2009 г. тестовые баллы егэ по предметам, соответствующим выбранной абитуриентом специальности, просто суммируются, давая его вступительный балл. Но егэ – такая непродуманная конструкция, что если хвост здесь вылез, значит, нос, непременно, увяз. За некоторое прояснение правил пришлось заплатить полным обессмысливанием результата их применения. Очевидно, что и от специальности, и от вуза существенно зависит относительная значимость оценок по разным предметам. И просто суммировать их, это всё равно, что пытаться определить сумму денег в кармане, суммируя номиналы банкнот, не обращая внимания на то, в какой они валюте [9].

В действительности дела здесь обстоят намного хуже, поскольку даже при равной значимости двух предметов нет никаких гарантий, что, скажем, 70 баллов по одному предмету + 90 по другому – это то же самое, что 80 + 80 или 90 + 70. Если неизвестно, каким способом градуирована шкала прибора, то нельзя быть уверенным, что цена его делений одинакова по всей шкале. А в случае шкалы тестовых баллов егэ можно показать, что они заведомо неравноценны.

За десятилетие проведения единого государственного экзамена его организаторы так и не сумели внятно объяснить обществу, что же там считается, каким образом и почему именно так, а не иначе. Но само по себе это еще не есть проблема. В конце концов, измерительный прибор не обязан иметь простое и общепонятное устройство – он должен давать надежные и однозначно интерпретируемые показания. Но вот этого, как раз, и нет.

Номинально в основе процедуры пересчета первичных баллов в тестовые лежит теория моделирования и параметризации педагогических тестов (items response theory). Однако ее методы используются зачастую за пределами их применимости, а рекомендации грубо нарушаются буквально на каждом шагу. Немаловажно и то, что в официальных документах, регламентирующих проведение егэ, описание методов обработки его результатов вообще отсутствует. Вместо этого приводятся лишь ссылки на научные публикации неясного правового статуса.

Возьмем на себя труд по описанию и разбору используемых методов.

Тестология – in vitro & in vivo

Для проведения любых тестов необходимо большое число разных вариантов, которые неизбежно будут неодинаковы по сложности. Компенсация ее различий и является главной задачей пересчета баллов. Теория моделирования и параметризации педагогических тестов решает эту задачу посредством математических моделей, выражающих вероятности определенных исходов выполнения задания экзаменуемым через некие характеризующие их параметры.

Краеугольным камнем теории является однопараметрическая модель Раша, формулирующаяся для заданий с дихотомическим исходом, т.е. оцениваемых из одного балла (успех или неуспех). Она сводится к гипотезе о том, что отношение вероятности справиться с некоторым заданием p к вероятности не справиться с ним 1–p равно отношению знаний экзаменуемого Z к трудности этого задания T. Две последние величины сами по себе неопределимы, и возможно оперировать только их отношением. Поэтому, как это часто делается в подобных случаях, переходят к логарифмической мере – логитам [10] знаний z = ln Z/W и трудностей t = ln T/W, где W – некий опорный уровень. Его выбор, равно как и выбор основания логарифма, несущественен, т.к. линейное отображение диапазона логитов знаний на заранее определенный диапазон тестовых баллов элиминирует эти два параметра.

Сразу обратим внимание, что модель Раша обоснована только для гомогенных тестов, т.е. состоящих из однотипных заданий. В случае же столь сложной структуры тестов, которая нужна для выпускного или вступительного экзаменов (и тем более, в случае попыток их совмещения), невозможно гарантировать достаточно высокую корреляцию результатов выполнения отдельных заданий с результатами выполнения теста в целом, что автоматически выводит нас из области применимости модели. Более того, гомогенность становится невозможно даже проверить, поскольку, чем хуже устроен тест, тем в большей мере он проверяет не владение предметом, а готовность к сдаче тестов такого типа.

Кроме того, очевидно, что задания с выбором ответа из нескольких предложенных вариантов, используемые в части A егэ, радикально нарушают предположения модели. Вероятность успешного выполнения таких заданий-угадаек существенно ненулевая при сколь угодно низких знаниях, поскольку даже расставленные наугад крестики принесут какое-то количество баллов. Следовательно, результаты обработки результатов единого экзамена с помощью формул модели Раша неизбежно оказываются искажены.

Однако предположим, что этих проблем нет, и пойдем дальше.

Пусть имеется N экзаменуемых, характеризующихся логитами знаний zi (i = 1,2,…N), и каждому из них предложен вариант, состоящий из K заданий с логитами трудностей tj (j = 1,2,…K). В соответствие с моделью Раша, вероятность успешного выполнения j-го задания i-м экзаменуемым есть

.

Результатом тестирования будет матрица исходов ||aij|| размерности N×K, состоящая из нулей и единиц. На ее основе с помощью метода наибольшего правдоподобия [11] можно получить систему уравнений

,

решение которой дает неизвестные величины zi и tj.

Первая строка системы требует для каждого экзаменуемого совпадения суммы вероятностей успеха по всем заданиям с реальным количеством его успехов bi, которое называется первичным баллом экзаменуемого. Вторая строка требует совпадения суммы вероятностей успеха на каждом задании по всем экзаменуемым с реальным количеством их успехов на нем cj, которое называется первичным баллом задания. Результаты экзамена входят в уравнения только в виде сумм, определяющих первичные баллы. Поэтому экзаменуемые (задания), характеризуемые одинаковым первичным баллом, получат одинаковые оценки знаний (трудностей) [12].

Заметим, что приведенные уравнения не являются независимыми (сложение уравнений первой строки системы дает тот же результат, что и сложение уравнений второй строки). Это вполне ожидаемо, т.к. неизвестные zi и tj могут быть определены только с точностью до произвольной аддитивной постоянной, задание которой эквивалентно фиксации опорного уровня W, связывающего трудности и знания с их логитами. Как уже было сказано, его величина не влияет на конечный результат, поэтому можно считать, что полученная система уравнений однозначно разрешима.

Задания разных вариантов неизбежно различаются по трудности, поэтому в них включают т.н. якорные задания, общие для всех вариантов. Найденные как решения системы логиты подвергаются такому линейному преобразованию, чтобы трудности якорных заданий из разных вариантов совпали (или оказались максимально близки в смысле какого-либо критерия, если их точное совмещение невозможно). Это позволяет скомпенсировать неравноценность вариантов. Откорректированные таким образом логиты знаний линейно отображаются на какой-либо удобный диапазон значений (например, от 0 до 100) – это и будут тестовые баллы.

Здесь имеется очевидный подводный камень, на который умудрились напороться организаторы егэ. Дело в том, что модель Раша при определении ее параметров с помощью метода наибольшего правдоподобия некорректна для экзаменуемых, показавших абсолютный результат (всё или ничего), – для них она дает логиты знаний z = ±∞. Однако линейно отобразить неограниченный диапазон знаний на ограниченный диапазон тестовых баллов невозможно. Поэтому если кто-то осилил все задания или не осилил ни одного, процедура линейного масштабирования оказывается в принципе невыполнима. Тем не менее, официально принятые и опубликованные правила пересчета, действовавшие до 2008 г., требовали выполнения именно такой процедуры. Но чудес не бывает, и поэтому на практике преобразование осуществлялось не так, как того требовали правила.

Собственно говоря, тут существует единственный и очевидный способ побороть бесконечности. Нулевому результату сразу сопоставляется 0 тестовых баллов, стопроцентному – 100, а вот уже для остальных – неабсолютных – результатов оценки подготовленности подвергаются линейному преобразованию. Однако это элементарное уточнение нашло свое отражение в правилах только в 2008 г., а до того применялось подпольно, что автоматически делает результаты егэ предшествующих лет юридически ничтожными. Понятно, что публично признать подобную накладку немыслимо, поэтому ее исправление было официально обосновано устранением другого изъяна методики пересчета баллов.

До 2008 г. параметры линейного отображения определялись следующим образом (еще раз подчеркнем, что речь идет о практике, а не об официальных правилах). Постоянный сдвиг выбирался так, чтобы средний уровень подготовленности отображался на 50 тестовых баллов, а коэффициент растяжения – так, чтобы конец диапазона оценок подготовленности, дальше отстоящий от среднего, отображался на 1 или 99. При этом другой конец диапазона, который был ближе к среднему, мог отобразиться в тестовый балл, очень далеко отстоящий от своего края шкалы. Так, в 2007 г. на егэ по математике экзаменуемые, набравшие всего 1 первичный балл (из 37, т.е. 2,7%), получали сразу аж 12 тестовых, тогда как на егэ по русскому языку столько же оставалось до 100 тем, кто не добрал всего 2 последних первичных балла (из 60, т.е. 3,3%). Иными словами, было возможно возникновение большой дырки в диапазоне тестовых баллов, причем расположенной с непредсказуемой его стороны. И если первое просто плохо, то второе в условиях действия свидетельств егэ в течение двух лет недопустимо.

Поэтому правила 2008 г. предписывали выбирать параметры линейного отображения так, чтобы оно было по возможности симметричным. Минимальный неабсолютный результат (набран только один первичный балл) отображался на 6 тестовых баллов, а максимальный неабсолютный результат (не набран только один первичный балл) – на 94. Почему стоимость первого и последнего первичных была баллов принята равной именно 6 тестовым, да еще и сразу для всех предметов (задания по которым оцениваются из разного количества первичных баллов), осталось загадкой [13].

В 2009 г. в правила пересчета были тайно [14] внесены дополнительные изменения. Логиты знаний, попавшие в тот же диапазон, в котором они лежали в 2008 г. преобразовывались по той же формуле, что и год назад, а выходящие за пределы этого диапазона – по дополнительным формулам. Таким образом, отображение перестало быть линейным даже в области неабсолютных результатов, что еще дальше уводит применяемую процедуру от ее научного обоснования.

Кстати, следует заметить, что попытки сделать результаты егэ действительными в течение двух лет, тоже являются начинанием, научно не обоснованным. Оно требует использования якорных заданий для экзамена, проводимого в разные годы. Но это возможно лишь теоретически, а не практически, так как кимы прошлых лет становятся материалом для предэкзаменационной подготовки. В результате, входившие в их состав якорные задания оказываются знакомы новым экзаменуемым, так что субъективная трудность этих заданий уменьшается на неопределенную величину. Вообще говоря, проблематичным является соотнесение даже результатов егэ разных волн, разделенных неделями, – срок достаточный для ознакомления с предъявленными заданиями.

Все описанные выше глупости и несуразности, за исключением наличия в егэ задач-угадаек, в сущности, являются мелочами, свидетельствующими о неспособности егэшников разобраться в теории, на положения которой они, якобы, опираются. Однако тут имеется и по-настоящему серьезная, но тоже рукотворная проблема. В процедуру пересчета баллов была добавлена еще одна стадия, теорией непредусмотренная.

Дело в том, что после корректировки логитов с помощью якорных заданий, каждый вариант будет характеризоваться своим диапазоном логитов знаний, а значит, и своими параметрами отображения на шкалу тестовых баллов. В результате возможно возникновение инверсий между первичным и тестовым баллом (ситуаций, когда меньший первичный балл превратится в больший тестовый балл за счет того, что получен на более сложном варианте). В условиях информационной закрытости системы единого государственного экзамена балльные инверсии, как нетрудно догадаться, должны вызывать бурю общественного негодования. Поэтому организаторы егэ, не готовые что-либо объяснять людям, изобрели дополнительную стадию осреднения шкал.

Сначала для каждого значения первичного балла bi вычисляется среднее значение откорректированных zi по всем экзаменуемым, набравшим такой первичный балл на всех вариантах, которое и считается для них оценкойподготовленности. И лишь только эти оценки преобразуются в тестовые баллы. Инверсий при этом не возникает.

Стадия осреднения, делая пусть не методы, но хотя бы результаты пересчета более понятными обществу, сводит на нет сам смысл применения этих методов. Основным их содержанием является возможность объективно соотносить между собой результаты выполнения разносложных вариантов. Но шкала пересчета, полученная на основе осреднения, преобразует первичные баллы в тестовые единообразно для всех экзаменуемых, т.е. уже без учета сложности вариантов. Наш Левша аглицкую блоху в очередной раз подковал, но танцевать та, как и следовало ожидать, перестала…

Заметим, что различия сложности вариантов в случае единого государственного экзамена оказываются куда больше, чем в случае традиционных вузовских экзаменов. Выравнивать сложность вариантов для традиционных вступительных экзаменов было сравнительно просто, т.к. разработчики заданий имели дело с небольшим числом вариантов. А для массового егэ необходимо большое число разных вариантов заданий, которые к тому же должны существенно варьироваться для разных часовых поясов [15], что делает задачу выравнивания их сложности практически неразрешимой. Впрочем, ее, скорее всего, никто и не пытается решать, поскольку, как принято считать, пересчет баллов компенсирует различия в сложности вариантов егэшных кимов.

Завершает этот паноптикум избранный подход к заданиям не с дихотомическим, а с политомическим исходом, т.е. оцениваемым не из одного, а из нескольких первичных баллов. Для обработки результатов выполнения таких заданий используется одно из самых неудачных расширений модели Раша, называемое моделью частичного оценивания (partial credit model) [16]. Последняя сводится к предположению, что баллы задания представляют собой однобалльные ступеньки, которые преодолеваются строго последовательно, причем вероятность преодоления каждой из них подчиняется модели Раша. При этом ее базовая формула

заменяется (включающим ее в себя как частный случай) более общим выражением

,

где ps – вероятность набрать ровно s баллов при выполнении задания, а Ts – некая характеристика s-ой ступеньки. Раскрывая это рекуррентное соотношение, получаем

,

где

,

а M – число ступенек в задании.

Как и в случае модели Раша, в модели частичного оценивания имеют смысл не сами по себе величины Z и Ts, а только их отношения. Однако если в модели Раша величина T характеризовала трудность получения балла, то в случае модели частичного оценивания величинам Ts нельзя придать аналогичный смысл трудностей получения s баллов (равно как и какой-либо иной внятный смысл). Но если невозможна содержательная интерпретация величин Ts, то становится неинтерпретируемой и величина Z, измеримая только в связке с ними. Модель частичного оценивания позволяет нечто измерять, но мы лишены возможности понять, что же именно она измеряет.

Более того, модель становится внутренне противоречивой при использовании в одном тесте заданий с разным числом ступенек. Поскольку согласно предположениям модели ступеньки преодолеваются строго последовательно, вероятность преодолеть s-ю ступеньку (набрать s или более баллов) не может зависеть от наличия последующих ступенек. Однако, как легко видеть, эта вероятность дается дробью, числитель и знаменатель которой есть полиномы от Z степени M, т.е. она зависит как от числа последующих ступенек, так и от их характеристик. Следовательно, смысл величины Z будет варьироваться при изменении числе ступенек в заданиях, используемых для ее измерения. Поэтому одновременное наличие в егэшных кимах заданий, оцениваемых из разного числа баллов, при пересчете по формулам модели частичного оценивания делает итоговую оценку величиной просто бессмысленной.

Наконец, третья проблема с этой моделью связана с тем, что задания, части которых могут выполняться строго последовательно, как она того требует, крайне неудобны с практической точки зрения. Обычно куда важнее проверить функциональную грамотность экзаменуемого и его умение выполнить некий комплекс взаимосвязанных действий, нежели выяснить, как далеко человек способен пройти по навязанной ему цепочке шагов. Поэтому устройство реально предлагаемых заданий с политомическим исходом почти никогда не согласуется с исходными посылками модели частичного оценивания, что автоматически делает ее формулы неприменимыми для обработки результатов выполнения этих заданий.

Подводя промежуточный итог, можно сказать, что если модель Раша – это вполне разумный практический инструмент, который используется безграмотно и (как будет показано ниже) далеко за пределами области своей применимости, то модель частичного оценивания – это плод абстрактного теоретизирования, для практического применения непригодный изначально. Единственная мыслимая причина обращения к этой экзотической модели – стремление сделать процедуру обработки результатов егэ максимально непонятной не только для широкой общественности, но и для большинства специалистов.

Не от той стенки гвоздь

Описанные выше проблемы со шкалированием вызваны непониманием организаторами егэ основ используемого ими математического инструментария. Однако есть сложности и совершенно иной природы, связанные с тем, в какой мере этот инструментарий соответствует решаемым задачам.

Тесты по решаемой ими задаче делятся на критериально-ориентированные и нормативно-ориентированные. Первые предназначены для проверки усвоения экзаменуемыми определенного материала (например, итоговая аттестация), а вторые – для сравнения экзаменуемых между собой (например, конкурсный отбор). В случае каждой из указанных задач применение модели Раша и ее обобщений приводит к проблемам (в первом случае – к непреодолимым, во втором – к преодолимым, но реально не преодолеваемым).

Одной из важных функций единого государственного экзамена как итоговой аттестации должно быть отслеживание изменений уровня школьного образования. Однако используемая методика шкалирования результатов егэ делает их в принципе непригодными для этих целей. Шкала пересчета первичных баллов в тестовые строится таким образом, что егэ оказывается измерительным прибором, лишенным какого бы то ни было эталона, с которым соотносились бы успехи экзаменуемых. Они сравниваются не с требованиями школьной программы, а только с успехами других экзаменуемых. В результате полностью утрачивается важная функция единого государственного экзамена как объективного измерителя положения дел в сфере образования.

Рассмотрим ситуацию, когда имеется две равночисленных группы экзаменуемых, таких, что знания представителей второй группы составляют фиксированный процент от знаний представителей первой:

.

Пусть обеим группам предложен один и тот же набор заданий, достаточно полный для точной оценки знаний их представителей. Тогда логиты знаний представителей групп, полученные в результате независимой обработки результатов экзамена, будут различаться на некоторую постоянную величину:

.

Но как корректировка логитов по якорным заданиям, так и последующий пересчет логитов в тестовые баллы уничтожают постоянный сдвиг, разделяющий группы. В результате они, несмотря на разные уровни знаний их представителей, становятся неразличимы.

Если эти группы являются, скажем, школьными выпусками разных лет, то получается, что уровень образования может сколько угодно сильно измениться, что, однако, никак не отразится на результатах экзамена.

Из того, что модель Раша безнадежно плоха для моделирования и параметризации критериально-ориентированных тестов, к сожалению, еще не вытекает, что она окажется очень уж хороша для тестов нормативно-ориентированных. Для таких тестов ключевой характеристикой является дифференцирующая способность шкалы, т.е. то, насколько сильно изменяется итоговый результат экзаменуемого при приобретении/потере им одного первичного балла. Продифференцировав первое уравнение системы, находим

.

Легко видеть, что дифференцирующая способность шкалы оказывается максимальной на ее краях и минимальной в центре. В самом деле, все слагаемые в знаменателе правой части близки к нулю для экзаменуемых с самыми низкими (высокими) знаниями, для которых актуально получение самых первых (последних) первичных баллов [17]. Именно эти баллы и преобразуются в самое большое количество тестовых, обеспечивая сравнительно хорошую дифференцировку самых слабых (сильных) экзаменуемых. Но их немного и конкуренция между ними невелика, поэтому нет никакой необходимости дополнительно увеличивать разреженность их результатов. Высокая дифференцирующая способность нужна как раз на середине шкалы, где сосредоточена основная масса экзаменуемых, имеющих средние знания. Однако для них пересчет баллов с помощью модели Раша приводит лишь к увеличению скученности.

На рис. 1 показана зависимость тестового балла егэ от первичного по результатам проведения единого государственного экзамена в 2008-09 гг. На ее графике быстрый рост сменяется медленным, а потом снова – быстрым. Первые и последние тестовые баллы даются легче всего. Однако, как уже было сказано, для надежной дифференцировки экзаменуемых, оптимальной была бы прямо противоположная ситуация, при которой набор первых и последних баллов максимально затруднен (рост графика: медленно – быстро – медленно). Именно такова логика традиционных экзаменов, эффективность которых проверена многолетней практикой. Их варианты обычно включали по одному «утешительному» и одному «убойному» заданию, ориентированным на самых слабых и самых сильных, а также – большое количество заданий средней сложности, служивших целям дифференцировки основной массы поступающих.

Рис. 1. Шкалы пересчета первичного балла егэ в тестовый (ОИП)
Для большинства предметов (физики, химии, биологии, географии, истории, литературы, обществознания, русского языка, а в 2008 г. еще и информатики) шкалы практически совпадают, располагаясь внутри узкого коридора со средней полувысотой в 3 балла. Они устроены так, что для первых и последних четвертей диапазона тестовых баллов их ценность, выраженная в первичных баллах, оказывается вчетверо ниже, чем для центральной половины. Из общего ряда выбивается математика, для нее график пересчета близок к линейному. Причиной этого является сравнительная трудность получения по математике первых и последних первичных баллов. В 2009 г. из коридора в правой части графика выбралась и информатика, что обусловлено появлением в ее кимах нескольких субъективно сложных заданий, затруднивших получение последних баллов.

Идеальна ситуация, когда интегральное распределение экзаменуемых по результатам (зависимость от результата доли экзаменуемых, не сумевших его превзойти) имеет линейный вид без особо крутых или пологих участков. В этом случае приобретение (потеря) балла конкретным экзаменуемым будет означать, что он обгоняет (пропускает) примерно одинаковое число конкурентов вне зависимости от того, каков его результат [18]. И, соответственно, будет иметь хоть какой-то смысл привычное для нас вычисление суммарного вступительного балла от экзаменов по различным предметам.

На рис. 2 приведены примеры распределений участников егэ-2009 по набранным баллам. Легко видеть, что отклонение от линейного вида для тестового балла значительно больше, чем для первичного. Графики для тестового балла имеют слева и справа широкие участки, «выположенные» практически до горизонтали, вследствие чего средняя часть графика очень сильно «выкручена». Части графика, на которую приходится 90% экзаменуемых, по разным предметам соответствует диапазон шириной лишь в 35÷50 тестовых баллов из 100, т.е. из-за пересчета баллов рабочая часть шкалы сокращается в 2÷3 раза.

Рис. 2. Интегральное распределение участников егэ по химии и русскому языку по набранным тестовому и первичному баллам (ОИП)
Если вид графиков для первичных баллов еще близок к линейному, то графики для тестовых баллов уже имеют по краям отчетливо выраженные плато, а в середине – крутые подъемы. В результате более-менее линейные участки этих графиков оказываются узки (от 30 до 80 тестовых баллов по химии и от 35 до 75 – по русскому языку).

В этой связи следует обратить внимание на еще одну принципиальную особенность любого шкалирования: чем выше дифференцирующая способность шкалы, тем выше погрешность итоговой оценки (и наоборот). В случае модели Раша данное обстоятельство особенно наглядно.

Дисперсия балла, получаемого за задание c вероятностью выполнения p, есть σ2 = p(1–p). А дисперсия первичного балла bi в предположении независимости отдельных заданий есть сумма их индивидуальных дисперсий:

.

Заметим, что это выражение совпадает со знаменателем приведенной выше формулы для дифференцирующей способности шкалы. Учитывая пропорциональность стандартных отклонений дифференциалам соответствующих величин, получаем, что дисперсия логита знаний для модели Раша в точности равна дифференцирующей способности:

.

Как мы видим, «хороших» участков у шкалы просто нет: там, где она хорошо дифференцирует, она плохо оценивает, а там, где хорошо оценивает, плохо дифференцирует. И чем дальше преобразование от линейного, тем сильнее будет проявляться это неустранимое противоречие.

На самом деле, ситуация не столь трагична. При использовании модели Раша единственно разумным является полный отказ от оценивания экзаменуемых, результат которых ниже (выше) некоторого порога. Им всем, а не только показавшим абсолютные результаты, независимо от точной величины первичного балла, следует директивно присваивать нулевой (максимальный) тестовый балл. Это всего лишь означало бы честное признание того, что предложенный тест (как вообще любой инструмент) имеет ограниченную область применимости. В результате, с одной стороны, были бы исключены участки шкалы, где погрешность определения тестового балла недопустимо высока, а с другой – растянулась бы средняя часть шкалы, что повысило бы ее дифференцирующую способность. Если ориентироваться на рис. 1, то применительно к егэ сказанное означает отказ от оценивания экзаменуемых, набравших менее 10% (более 90%) первичных баллов, что позволило бы вдвое растянуть рабочий участок шкалы на рис. 2. Однако, как нетрудно понять, это несовместимо с желанием егэшников измерить всех и сразу.

А ларчик просто открывался…

Проблема обработки результатов единого государственного экзамена не сводится к отдельным ошибкам, которые можно было бы ценой больших или меньших усилий исправить. Она носит системный характер и связана с отсутствием внятного ответа на вопрос о том, что именно должна характеризовать количественная мера успехов экзаменуемого. Для существующего формата егэ ответ на поставленный вопрос и не может быть дан в принципе, т.к. в случае выпускного и вступительного экзаменов это совершенно разные вещи. Однако если разделить единый экзамен на независимые выпускной и вступительный, то для каждого из них просто определяются и цели, и способы их достижения.

Цель вступительного экзамена – конкурсный отбор. Здесь компенсация различной сложности вариантов осуществляется элементарно, если в качестве экзаменационной оценки использовать рейтинг-балл. Рейтинг-балл экзаменуемого определяется как процент его конкурентов, выполнявших тот же вариант, что и он, и набравших первичный балл не меньший, чем набрал он. При этом автоматически обеспечиваются линейность интегрального распределения и постоянная дифференцирующая способность на протяжении всей шкалы, а также гарантируется простая и понятная цена балла. Однако не менее важно, что решается и еще одна важная задача, выходящая за пределы тестологии.

Использование теории моделирования и параметризации педагогических тестов для обработки результатов вступительного экзамена неявно предполагает, что при отборе поступающих в вузы первостепенное значение имеет уровень достижений, а раз так, то достаточно поставить экзаменуемых в равные условия. Такая точка зрения представляется глубоко порочной. Принимать в высшие учебные заведения следует, в первую очередь, не тех, кто продемонстрировал хорошую подготовку, а тех, кто сможет учиться в вузе, т.е. ориентироваться необходимо на способности и мотивации, а не на текущие достижения [19].

Достижения человека зависят не только от его способностей и мотиваций, но и от социально-экономических условий, в которых он находится. Так, например, очевидно, что одинаковые результаты школьников из столицы и из глухой отдаленной деревни свидетельствуют, скорее всего, о совершенно разном уровне способностей и мотиваций. Данное обстоятельство может быть учтено, если каждый вариант вступительного экзамена предлагать на территории с более-менее одинаковыми социально-экономическими условиями, не смешивая столицы с провинцией, а города с селами. Тогда конкурировать между собой будут экзаменуемые, имеющие близкие, насколько это возможно, стартовые условия. Решение этой задачи социального плана также является весомым доводом в пользу использования рейтинг-балла на вступительном экзамене. Немаловажна и блокировка преференций, получаемых жителями более коррумпированных регионов страны.

В случае выпускного экзамена всё обстоит совсем по-другому. Его цель – проверка усвоения школьной программы. При этом нет никакой нужды сравнивать выпускников между собой. Выпускной экзамен имеет смысл только в том случае, когда его результаты являются не относительными, а абсолютными.

Выпускник должен иметь вполне определенный набор базовых знаний, умений и навыков. Поэтому единственно возможный способ определения номинальной стоимости задания – пропорционально количеству проверяемых им зунов. Владение каким их процентом продемонстрировал экзаменуемый, такова его оценка по стобалльной шкале [20]. Остальное – от лукавого.

Такая организация выпускного экзамена имеет одно, несомненно, позитивное следствие: все его задания должны выбираться из открытого банка. Исключив процедуру пересчета баллов после экзамена, мы вынуждены заранее гарантировать равносложность его вариантов. Но для этого надо провести калибровку его заданий, т.е. убедиться в том, что количество начисляемых за их выполнение баллов, сообразно их сложности. А калибровка заданий невозможна без их предъявления для выполнения на контрольных, олимпиадах, пробных экзаменах или экзаменах прошлых лет [21]. Но однажды предъявленные задания неизбежно попадут в открытый доступ, в силу чего становятся бессмысленными попытки их скрывать.

Открытость банка заданий имеет массу положительных следствий. Во-первых, это сократит возможности организаторов егэ превращать оплаченные деньгами налогоплательщиков кимы в свою интеллектуальную собственность, стращая копирайтным законодательством всякого, кто пытается их обнародовать. Во-вторых, это позволит на ранней стадии выявить и элиминировать некорректные задания за счет возможности для любого желающего проверить их и дать им оценку. Ну, а в-третьих, исчезнет проблема утечки экзаменационных материалов, поскольку лучшая защита секретной информации – отсутствие секретности или хотя бы минимизация объемов закрытой информации [22].

Описанные выше методики получения оценок для обоих видов экзамена устроены значительно логичнее и проще, чем инструментарий теории параметризации и моделирования педагогических тестов. Более того, они лишают модель Раша и ее расширения одного из их главных преимуществ, которым принято считать возможность построить не порядковую, а метрическую шкалу выставляемых баллов. Если для элементов порядковой шкалы имеют смысл только операции сравнения («хуже», «лучше», «одинаково»), то в случае метрической приобретает смысл и операция вычисления разности. Это означает, что для метрической шкалы цена каждого очередного балла одна и та же. То, чем исчисляется эта цена, и определяет логику построения шкалы.

Для шкалы, основанной на модели Раша, балл – это изменение логита знаний на определенную величину. Для шкалы, которая выше была предложена для выпускного экзамена, балл – это владение определенной долей школьной программы в рамках образовательного стандарта. Ну, а для шкалы, предложенной для вступительного экзамена, балл – это процент обойденных конкурентов. То есть, все эти три шкалы метрические. Однако есть и разница. Данное свойство, достающееся первой из шкал просто в силу методики ее построения, далее никак не может быть использовано, поскольку вне тестологических моделей логиты знаний никакого смысла не имеют. Шкале вступительного экзамена метричность достается столь же легко, но зато в качестве бонусов она дает постоянную дифференцирующую способность экзамена и возможность частично скомпенсировать различия в социально-экономических условиях регионов, где обучались экзаменуемые. Обеспечение метричности шкалы выпускного экзамена требует определенных предварительных усилий, но они не пропадают втуне. Дополнительным преимуществом этой шкалы является то, что она является еще и нормированной, т.е. в ней естественным образом определено начало отсчета, что не позволяет ей «не заметить» изменений общего уровня образования.


Дата добавления: 2019-01-14; просмотров: 244; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!