III. Репрезентативность выборки
«Тайну вы, надеюсь, сохраните»
За день до выборов в бундестаг в газетах публикуются данные
опросов населения, предсказывающие с точностью до 1% исход избирательной кампании. Читатели удивлены: эти результаты получены на
основании 1800 интервью. Выбор этих 1800 опрашиваемых, создание
«репрезентативной выборки» часто считается неким тайным средством демоскопии…
Прогнозы выборов в государственные органы убедительно доказывают, что выборочный метод можно применять при организации опросов, то есть в работе с людьми. Рассмотрение такого рода примеров делает понятным, как по результатам опросов нескольких сотен и тысяч людей можно судить о поведении и установках миллионов.
Про американца доктора Джорджа Гэллапа часто говорят, что он изобрел «исследование общественного мнения», «выборочный опрос». Это не так, репрезентативные опросы развивались постепенно начиная с конца XVIII века. Гэллап привлек всеобщее внимание к исследованиям общественного мнения и добивался доверия к выборочному методу. Особое значение имела его драматическая борьба в 1936 году с американским журналом «Literary Digest», когда Гэллап проводил выборочные опросы с несколькими тысячами интервью, а его противники подготовили неверный прогноз на основании колоссального исследования с рассылкой 10 млн. анкет…
Вероятностные расчеты, на которых базируется выборочный метод, и которые объясняют также степень точности прогнозов выборов, делались уже в XVII веке. Но лишь в начале XX века была найдена связь между математикой, лежащей в основе «закона больших чисел», и опросами населения.
|
|
В следующем разделе объясняется «закон больших чисел» и его применение в репрезентативных опросах.
Математическая основа выборочного метода - «закон больших чисел».
Если из большого мешка с орехами достать любые 10 штук и 5 из них будут пустыми, можно делать выводы о содержимом всего мешка. Педант, однако, возразит, что ничего еще не известно об остальных орехах в мешке, и он будет, безусловно, прав: утверждать можно лишь то, что в мешке сверху не менее 5 пустых и не менее 5 полных орехов. Но если признать его абсолютную правоту, то, следуя его образу мыслей, пришлось бы вообще отказаться от оценок и выводов, так как в действительности невозможно или почти невозможно получить полные и точные сведения обо всех предпосылках для различного рода оценок и выводов.
Если теперь человек, который вытащил 5 пустых орехов, сделает из этого вывод, что в мешке «почти половина» всех орехов пустые, то он имеет для этого определенное основание. Большинство оценок, с помощью которых мы ориентируемся в нашем поведении, основано на еще более скудном опыте…
|
|
Человека, которого интересует этот мешок орехов, не удовлетворят такие неточные сведения. Он попытается выяснить точнее, какую часть содержимого мешка будут составлять пустые орехи. Статистик ему посоветует увеличить выборку, то есть взять из мешка не 10, а, может быть, 100 орехов. Если получится результат 50 пустых на 50 целых орехов, то можно предположить с вероятностью 95 из 100, что часть полных орехов в мешке составляет от 40 до 60% и с вероятностью 99 из 100, что в мешке не меньше 35% и не больше 65% плохих орехов.
Если заинтересованный человек не удовлетворится этим расчетом, то из мешка нужно будет достать еще больше орехов, например 1000 штук. Если в этом случае снова окажется 500 пустых орехов и 500 полных, то имеется вероятность 95 из 100, что мешок содержит полных орехов не меньше 47 процентов и не больше 53 процентов. Мы видим, что надежность предсказания о содержимом мешка увеличивается с увеличением числа проверяемых орехов, с увеличением выборки….
Точность измерения проще всего можно охарактеризовать так называемым «средним квадратичным отклонением», которое играет большую роль в физических, астрономических и геодезических измерениях. Вероятность того, что эффективная величина лежит в пределах этих отклонений, составляет две трети. Вдвое большие отклонения имеют ожидаемую величину в 1/20; кроме того, вероятность резко снижается до самых малых величин.
|
|
Это «среднее квадратичное отклонение» (часто его называют также «стандартной ошибкой») для двух приведенных выше примеров: при выборке в 100 элементов она составляет 5 процентов, при выборке в 1000 элементов только 1,6 процента. При выборке в 2000 элементов она уменьшится еще до 1,1 процента. При удвоении выборки так называемая стандартная ошибка не уменьшается вдвое. Для того, чтобы уменьшить ошибку вдвое, нужно увеличить выборку в четыре раза. Точность измерений, таким образом, растет намного медленнее - так в подзорной трубе для удвоения изображения соответственно требуется вчетверо больше усилий.
Каков должен быть объем выборки, зависит от требуемой точности выводов или лучше от того, какая точность решения данной проблемы, необходима и достижима. Для некоторых естественнонаучных и медицинских исследований возможность статистической оценки 50 случаев уже значительна. Иногда это могут быть также и миллионы отдельных процессов, сведения о которых автоматически фиксируются измерительными инструментами.
|
|
О «законе больших чисел» в статистике говорят тогда, когда порядок стандартной ошибки тот же, что и при распространенных измерениях в торговле и на производстве. Измерения с ошибкой менее 1,6 процента в повседневной жизни, в общем, проводятся только относительно времени и длины. Большинство весов, например буханки хлеба, имеют значительно большие допуски, почтовые весы редко имеют точность больше 2% - (это учитывается почтой)... Пока расчет вероятности осуществляется правильно и указаны его предпосылки (для особого статистического случая), то результаты выборки в пределах от 200 до 2000 элементов вполне могут конкурировать с измерениями, которые считаются в повседневной жизни достаточно надежными и обязательными.
В основе всех этих примеров лежит «закон больших чисел», местом рождения которого является игорный стол. Со времени его первой формулировки, данной Симоном де Пуассоном, прошло более ста лет. В течение этого времени он претерпел многообразные интерпретации. Иные математики обосновывали его преимущественно теоретически, другие главным образом со стороны практической статистики. В редакции Антуана Огюстена Курно этот закон определяется следующим образом:
1. События, вероятность которых очень невелика, случаются очень редко,
2. Вероятность того, что отклонение относительной повторяемости от соответствующей вероятности не превышает заданную величину, будет тем больше, чем больше объем наблюдаемой серии.
Вывод: при достаточно большом объеме наблюдаемой серии относительная повторяемость соответствующей ей вероятности очень редко отклоняется больше, чем на заданную малую величину…
Правило получения корректной выборки из совокупности в простейшей формулировке гласит: каждый элемент совокупности должен иметь равные возможности попасть в выборку. Этим предусматривается также, что выборочный метод можно применять всегда там, где имеется совокупность однородных, но различимых членов или составных частей или других единиц…
Дата добавления: 2016-01-06; просмотров: 12; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!