Сколько баллов в стобалльной шкале



Одной из важных положительных черт егэ, которой традиционно уделяется немалое внимание при его пиаре, считается переход от традиционной «пятибалльной» шкалы к качественно более точной стобалльной. Однако действительно ли кимы единого экзамена позволяют производить оценивание подготовленности с такой высокой точностью?

Любой прибор имеет погрешность измерений, которая не уменьшается от измельчения градуировки его шкалы. Можно было пересчитывать оценки егэ и к тысячебалльной шкале – стали ли бы они от этого точнее? Мелкая градуировка спасает только от ошибок округления, но не от ошибок измерения.

Результат любого измерения подвержен неизбежным флуктуациям. Измерение подготовленности – не исключение. При одном и том же ее уровне экзаменуемые могут получить разные итоговые баллы, распределение которых характеризуется определенными значениями математического ожидания m и дисперсии σ2. И нет никаких оснований считать тех экзаменуемых, чей балл попадает в интервал от m-σ до m+σ, различающимися по уровню подготовленности. В пределах погрешности теста им всем можно приписать балл m. Это накладывает ограничение на количество различимых градаций оценки G, каждой из которых должен соответствовать диапазон разыгрываемых балов шириной 2σ.

Естественным способом повышения точности является проведение множественных измерений – в данном случае – предъявление экзаменуемым тестов, состоящих из многих заданий. По мере роста числа разыгрываемых баллов K, дисперсия итогового балла σ2 будет возрастать пропорционально K (в предположении, что баллы набираются независимо). Соответственно, максимально возможное количество различимых градаций описывается формулой

,

где c – некоторый коэффициент. Заметим, что это ограничение носит фундаментальный характер и не связано со структурой теста и методикой пересчета баллов при условии, что они корректны. Их некорректность может неопределенно сильно уменьшить величину G.

Потеря градаций оценки может быть связана как с эффективным уменьшением количества разыгрываемых первичных баллов K, так и с внесением в тестовый балл случайных искажений, которые раздувают дисперсию, уменьшая тем самым коэффициент c. При проведении егэ каждый из указанных способов был применен аж дважды.

Уменьшение числа разыгрываемых баллов обусловлено наличием в егэшных кимах как заданий-угадаек, за которые есть шансы получить баллы, ничего не зная, так и заданий с политомическим исходом, допускающих непоследовательное преодоление ступеней, в результате чего частичный балл за задание можно получить несколькими различными способами, тогда как модель предусматривает только один. И то, и другое приводит к систематическому завышению результатов экзамена по сравнению с реальным уровнем экзаменуемого, т.е. некоторое количество баллов, начисляемых просто так, фактически выводится из розыгрыша.

Искажения в тестовый балл вносятся как за счет различной сложности вариантов, которую не компенсирует усредненная шкала пересчета баллов, так и за счет использования заданий, оцениваемых из разного числа баллов, что лишает смысла измеряемые параметры модели частичного оценивания. В первом случае оказывается существенным, какой именно вариант выполнял экзаменуемый, во втором – на каких именно заданиях был набран первичный балл. С точки зрения общего итога, эти индивидуальные обстоятельства оказываются случайными факторами, не поддающимися учету.

Описанные практические ошибки, сокращающие количество различимых градаций итоговой оценки, являются в принципе устранимыми. Поэтому попробуем понять, как велико может быть количество градаций в том гипотетическом случае, когда они устранены, т.е. найдем ограничение величины G сверху.

Можно показать, что если тест состоит только из заданий с дихотомическим исходом (оцениваемых из одного балла), то значение c не превосходит величины 1,0÷1,2 (рассчитанной в предположении, что разброс логитов знаний составляет 5÷7 единиц или, что то же самое, различие экзаменуемых по знаниям не превышает 2÷3 порядков). Однако данная величина коэффициента на практике не достигается, чему есть несколько причин.

Во-первых, приведенная верхняя оценка c соответствует весьма специфической структуре теста, при которой все задания имеют равную или почти равную сложность. Для разумно организованных тестов, в которых задания существенно варьируются по сложности, коэффициент будет несколько меньшим.

Во-вторых, в любом реальном тесте разные задания, вообще говоря, измеряют разные сущности, что неизбежно повышает погрешность итогового результата и снижает значение c. И хотя для кимов единого государственного экзамена внутренняя согласованность теста весьма высока [23], указанное обстоятельство всё же нельзя сбрасывать со счетов.

В-третьих, необходимо учитывать наличие заданий с политомическим исходом (оцениваемых более чем из одного балла). Части таких заданий не являются независимыми. В силу этого успешное выполнение одной части обычно повышает шансы на успешное выполнения остальных частей. И, наоборот, ошибка, допущенная в одной части, снижает шансы справиться с остальными. Наличие подобной корреляции увеличивает дисперсию балла, полученного за задания, оцениваемые из нескольких баллов, по сравнению с суммарным балом за соответствующее количество однобалльных заданий. А значит, количество различимых градаций итоговой оценки еще более сокращается.

Вряд ли возможно напрямую учесть влияние всех описанных факторов. Однако можно воспользоваться следующей косвенной оценкой. Традиционный экзамен по математике, структура которого была оптимизирована для обеспечения 4 различимых градаций итоговой оценки, обычно состоял из 5÷6 заданий, выполнение каждого из которых могло оцениваться из 3÷5 псевдобаллов: «+», «+/–», «+/2», «–/+», «–» (с возможным отказом от одной или двух промежуточных ступеней). Это соответствует K ≈ 18÷25. Такое количество разыгрываемых баллов обеспечивает 4 градации оценки при значении c ≈ 0,8÷0,9, которое в свете сказанного выше представляется заслуживающим доверия.

Максимальный балл K ощутимо варьируется для егэ по различным предметам. Так, в 2008–10 гг. на егэ по математике разыгрываются 30÷37 баллов (что соответствует 5 различимым градациям оценки), по литературе и информатике – 39÷45 баллов (5÷6 градаций), по физике – 50 баллов (6 градаций), по химии, биологии, географии, истории, обществознанию и русскому языку – 59÷69 баллов (6÷7 градаций), по иностранным языкам – 80 баллов (7÷8 градаций) [24].

Таким образом, если не принимать в расчет дополнительное уменьшение величины G из-за безграмотного шкалирования и некорректной структуры тестов, то можно утверждать, что стобалльная шкала егэ реально содержит всего 5÷8 различимых градаций оценки. Это, разумеется, больше, чем при проведении традиционного экзамена, однако чтобы довести это количество до декларируемых 100 градаций, нужно увеличить число предъявляемых заданий всего-навсего в несколько сот раз.

Следует ли на этом основании отказываться от стобалльной шкалы? Нет, не следует. Она удобна психологически, а ее явно избыточная точность помогает противостоять ошибкам округления. Однако восторгаться ею тоже особо не стоит.

Данный пример достаточно хорошо позволяет почувствовать разницу между масштабом егэшного пиара и тем положительным эффектом, который может быть достигнут хотя бы теоретически.

К сожалению, дела обстоят еще хуже. Упомянутые 5÷8 градаций оценки соответствуют всей шкале итоговых баллов, но целиком она никогда и нигде не используется. При конкурсном отборе в любой вуз за места в нем конкурируют абитуриенты с оценками, принадлежащими диапазону, который значительно уже 100 баллов. Абитуриенты с оценкой ниже определённого порога, либо вообще не допускаются к конкурсу [25], либо не имеют никаких шансов на поступление. Диапазон результатов, на котором происходит конкуренция за места в конкретном вузе, оказывается вдвое–втрое меньше полной ширины шкалы. Соответственно, реально используемое количество различимых градаций оценки сокращается до 2÷3, при том, что традиционный вступительный экзамен, ориентированный по сложности на конкретный контингент поступающих, уверенно обеспечивал 3 различимых «положительных» оценки (получившие двойку из конкурса выбывали). Таким образом, несмотря на значительно большее число заданий, точность единого государственного экзамена чуть ниже, чем у традиционных вступительных экзаменов, что есть прямое следствие совмещения функций выпускного и вступительного экзаменов. При этом обществу рассказывают про значительно возросшую точность.

Так и кончаются школьные годы…

Одной из официально декларировавшихся целей введения единого государственного экзамена была «разгрузка выпускников-абитуриентов через сокращение числа испытаний за счет совмещения выпускных экзаменов в школах и вступительных экзаменов в вузах». Функции егэ как итоговой аттестации постепенно сходят на нет, результатом чего стала фактическая отмена выпускного экзамена (надо полагать, это и имелось в виду под разгрузкой выпускников).

Чтобы выполнять функции итоговой аттестации, экзамен должен сдаваться всеми выпускниками [26]. Однако с 2009 г. егэ обязателен только по русскому языку и математике, а по остальным предметам единый экзамен сдается лишь по желанию. Естественно, те выпускники, которым эти предметы не нужны для поступления в вуз, их и не сдают [27]. Более того, они просто прекращают учить эти предметы, поскольку никаких альтернативных форм итоговой аттестацией после отмены выпускных экзаменов не введено.

Еще недавно как одно из важнейших достоинств егэ превозносилась его дифференцирующая способность, якобы, значительно более высокая, чем у оценок среднестатистического учителя. Однако с 2009 г. выпускной экзамен свелся к недифференцированному зачету, который реально проводится только по двум предметам.

Тем не менее, даже в таком виде, рассмотрение результатов егэшной аттестации дает богатую почву для размышлений.

Статистика знает всё

Прежде чем приступать к анализу результатов единого экзамена в его выпускной ипостаси, необходимо сделать одно важное замечание. Существуют две разных статистики результатов егэ. Одна публикуется в ежегодных аналитических отчетах «Результаты единого государственного экзамена» [28] Федерального института педагогических измерений (ФИПИ), а вторая размещается на Официальном информационный портале (ОИП) единого государственного экзамена в разделе «Статистика ЕГЭ» [29].

По некоторым позициям содержание этих источников разнится радикально. Более того, разночтения в содержании предварительной и итоговой информации ОИП порой выходят за пределы любых мыслимых уточнений, чему никто не потрудился дать хоть какое-то объяснение. Скорее всего, имеет место включение в окончательную статистику лиц, не являющихся выпускниками текущего года. По крайней мере, тот факт, что суммарное число сдаваемых добавленными лицами экзаменов (около 250 тыс. ежегодно) оставалось практически неизменным в 2007-09 гг., косвенно подтверждает данное предположение. Также есть основания полагать, что в статистике ФИПИ могли быть не учтены лица, сдававшие егэ досрочно. Кроме того, результаты егэ в аналитических отчетах ФИПИ приведены без учета пересдач русского языка и математики в 2009 г.

К сожалению, данных только какого-то одного источника не достаточно для анализа темы аттестации. Поэтому мы будем пользоваться обоими источниками, указывая их в скобках. Читателю не следует пугаться, встретив цифры, отличающиеся от известных ему, хотя возможные расхождения порой могут быть фантастичны. Так, например, доля лиц, получивших двойки по математике и русскому языку в 2009 г., составляет то ли 7,0% и 6,5% (ФИПИ), то ли 3,7% и 3,0% (ОИП), а по иностранному языку в 2008 г. – то ли 6,6% (ФИПИ), то ли 17,7% (ОИП). Впрочем, столь большой разброс – это пиковые ситуации. В большинстве случаев различия являются не очень существенными и не влияют на общую картину.


Дата добавления: 2019-01-14; просмотров: 256; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!