Калибровка и сверхуверенность. (Calibration and overconfidence).



 

Насколько люди уверены в своих ошибочных оценках? В первой секции этой статьи, посвящённой эффекту доступности информации, мы обсудили эксперимент по восприятию риска, в котором испытуемые переоценивали типичные для сообщений средств массовой информации причины смерти в пропорции, коррелирующей с избирательными сообщениями в газетах. Словиц (Slovic) (1982) также отмечает:

 

«Одним из пагубных аспектов моделей рассуждений является то, что люди обычно имеют очень большую уверенность в суждениях, основанных на них. В другом обзоре исследований по поводу причин смерти, людей просили сделать ставки на то, что они правы в своём выборе более частой среди двух причин смерти. (Фисчхофф, Словиц и Лихтенштейн (Fischoff, Slovic, и Lichtenstein), 1977). В эксперименте N1 испытуемые были довольно точны, когда делали ставки 1:1, 1.5:1, 2:1, и 3:1. То есть процент правильных ответов был близок к значению, даваемому этими ставками. Однако, по мере увеличения ставок от 3:1 к 100:1 почти никакого прироста точности не происходило. Только 73% ответов, на которые сделали ставки 100:1, были верны (вместо 99.1%). Точность возросла до 81% при ставках 1000:1 и до 87% при 10.000:1. Для ответов, на которые ставили 1.000.000:1, точность составляла 90%, то есть соответствующий уровень доверия должен был бы порождать ставки 9:1. В итоге, испытуемые часто ошибались даже при высочайших уровнях ставок. Более того, они были склонны делать очень высокие ставки. Более чем половина их ставок была более чем 50:1. Почти четверть – более чем 100:1. 30% респондентов в эксперименте N1 сделали ставку 50:1 на неверное утверждение, что убийства более часты, чем самоубийства».

 

Этот кажущийся удивительным результат вполне обычен в литературе, посвящённой моделям рассуждений и систематическим ошибкам в мышлении, где он известен как сверхуверенность. Допустим, я попрошу вас сделать наилучшее возможное предположение насчёт неизвестного числа, такого, как количество «Врачей и хирургов» в жёлтых страницах бостонской телефонной книге, или о суммарной продукции яиц в США в миллионах штук. Вы дадите в ответ некую величину, которая наверняка не будет совершенно точной; подлинная величина будет больше или меньше, чем вы предположили. Затем я попрошу вас назвать нижнюю границу этого показателя, такую, что вы уверенны на 99%, что подлинная величина лежит выше этой границы, и верхнюю границу, по отношению к которой вы на 99% уверены, что искомая величина лежит ниже неё. Эти две границы образуют ваш интервал 98% уверенности (confidence interval). Если вы хорошо откалиброваны (well-calibrated) , то на 100 подобных вопросов у вас будет только примерно 2 выпадения за границы интервала.

Алперт и Раиффа (Alpert и Raiffa) (1982) задали испытуемым 1000 вопросов по общеизвестным темам, подобных приведённым выше. Оказалось, что 426 подлинных значений лежали за пределами 98% интервалов уверенности, данных испытуемыми. Если бы испытуемые были правильно настроены, было бы только 20 сюрпризов. Иными словами, события, которым испытуемые приписывали вероятность 2%, случались в 42.6%.

Другая группа из 35 испытуемых была попрошена оценить 99.9% верхние и нижние границы уверенности. Они оказались неправы в 40% случаев. Другие 35 субъектов были опрошены о максимальных и минимальных значениях некого параметра и ошиблись в 47% случаев. Наконец, четвёртая группа из 35 субъектов должна была указать «невероятно малое» и «невероятно большое» значение параметра; они ошиблись в 38% случаев.

Во втором эксперименте новой группе испытуемых был предоставлен первый набор вопросов вместе с ответами, рейтингом оценок, с рассказом о результатах экспериментов и разъяснением концепции калибровки – и затем их попросили дать 98% интервалы уверенности для новой группы вопросов. Прошедшие подготовку субъекты ошиблись в 19% случаях, что являет собой значительное улучшение их результата в 34% до подготовки, но всё ещё весьма далеко от хорошо откалиброванного результата в 2%.

Подобные уровни ошибок были обнаружены и у экспертов. Хинс и Вэнмарк (Hynes и Vanmarke) (1976) опросили семь всемирно известных геотехников на предмет высоты дамбы, которая вызовет разрушение фундамента из глинистых пород, и попросили оценить интервал 50% уверенности вокруг этой оценки. Оказалось, что ни один из предложенных интервалов не включал в себя правильную высоту. Кристенсен-Залански и Бушихед (Christensen-Szalanski и Bushyhead) (1981) опросили группу врачей на предмет вероятности пневмонии у 1531 пациента с кашлем. В наиболее точно указанном интервале уверенности с заявленной достоверностью в 88%, доля пациентов, действительно имевших пневмонию, была менее 20%.

Говоря словами Алперта и Раиффы (Alpert и Raiffa) (1982): «Ради Бога, расширяйте свои крайние оценки! Будьте честны с собой! Допустите, что вы не знаете!»

Лихтенштейн (Lichtenstein) (1982) производит обзор 14 исследований на основании 34 экспериментов выполненных 23 исследователями, изучавшими особенности оценки достоверности собственных выводов людьми. Из них следовал мощнейший вывод о том, что люди всегда сверхуверены. В современных исследованиях на сверхуверенность уже не обращают внимания; но она продолжает попутно проявляться в почти каждом эксперименте, где субъектам позволяется давать оценки максимальных вероятностей.

Сверхуверенность в большой мере проявляется в сфере планирования, где она известна как ошибочность планирования. Булер (Buehler) (1994) попросил студентов-психологов предсказать важный параметр – время сдачи их дипломных работ. Исследователи подождали, когда студенты приблизились к концу своих годичных проектов и затем попросили их реалистично оценить, когда они сдадут свои работы, а также, когда они сдадут свои работы, если всё пойдёт «так плохо, как только может». В среднем, студентам потребовалось 55 дней, чтобы завершить свои дипломы, на 22 дня больше, чем они ожидали, и на 7 дней больше, чем они ожидали в худшем случае.

Булер (Buehler) (1995) опросил студентов о времени, к которому студенты на 50% уверены, на 75% уверены и на 99% уверены, что они закончат свои академические проекты. Только 13% участников закончили свои дипломы к моменту, которому приписывали 50% вероятность, только 19% закончили к моменту 75% оценки и 45% закончили к 99% уровню. Булер (Buehler et. al.) (2002) пишет «результаты выхода на уровень 99% достоверности особенно впечатляющи. Даже когда их попросили сделать наиболее консервативное предсказание, в отношении которого они чувствовали абсолютную уверенность, что его достигнут, всё равно уверенность студентов в их временных оценках намного превосходила их реальные результаты».

Ньюби-Кларк (Newby-Clark et. al.) (2000) обнаружили, что опросы испытуемых об их предсказаниях, основанных на реалистичной «наилучшей догадке», и опросы испытуемых о их надеждах в самом лучшем случае давали неразличимые результаты. Будучи спрошены о наиболее вероятном стечении обстоятельств, люди имели тенденцию предполагать, что всё пойдёт так, как планировалось, без неожиданных задержек и непредвиденных катастроф: то есть так же, как в наилучшем случае. Реальность, как оказалось, зачастую преподносит результаты, худшие, чем самый наихудший случай.

В этой статье мы обсуждаем сверхуверенность после обсуждения систематической ошибки подтверждения и частного случая – систематической ошибки неподтверждения. Знание об эффекте калибровке – это опасное знание – поскольку очень соблазнительно применять его избирательно. «Насколько глуп мой оппонент, чтобы быть уверенным в своих аргументах. Знает ли он, как часто люди ошибаются в том, в чём они уверены?» Если вы обнаруживаете, что мнения эксперта имеют гораздо меньше значения, чем вы раньше думали, вам стоит также понять, что ваши собственные мысли тоже гораздо слабее, чем вы думали раньше: и тогда потребуется меньше усилий, чтобы увлечь вас в сторону от ваших любимых верований. В противном случае вы станете медленнее реагировать на новые свидетельства. Вы оказываетесь в гораздо более худшем положении, чем если бы вы никогда не слышали о калибровке. По этой причине – часто несмотря на значительное искушение – я избегаю обсуждения исследований по калибровке, до того как я обсужу систематическую ошибку подтверждения, с тем, что я могу сделать такое же предупреждение.

Отметьте так же, что оценка эксперта, сильно уверенного в своём мнении, принципиально отличается от вычислений, сделанных исключительно на основе статистических данных, или исключительно на основе от адекватной, точно подтверждённой модели. Во всех случаях, когда эксперт утверждает, даже на основании точных вычислений, что событие имеет вероятность 10-6,  , он наверняка ошибается чаще, чем один раз на миллион. Но если бы комбинаторика не могла точно предсказать, что лотерейный билет имеет 10-8 шанс выиграть, то продавцы билетов бы разорились.

 


Дата добавления: 2019-03-09; просмотров: 167; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!