Основы распределений вероятности
Представьте себе, что вы находитесь на ипподроме и ведете запись мест, на которых лошади финишируют в забегах. Вы записываете, какая лошадь пришла первой, какая второй и так далее для каждого забега. Учитываются только первые десять мест. Если лошадь пришла после десятой, то вы запишете ее на десятое место. Через несколько дней вы соберете достаточное количество информации и увидите распределение финишных мест для каждой лошади. Теперь вы можете взять полученные данные и нанести на график. По горизонтальной оси будут отмечаться места, на которых лошадь финишировала, слева на оси будет наихудшее место (десятое), а справа наилучшее (первое). На вертикальной оси мы будем отмечать, сколько раз беговая лошадь финишировала в позиции, отмеченной на горизонтальной оси. Вы увидите, что построенная кривая будет иметь колоколообразную форму.
При таком сценарии есть десять возможных финишных мест для каждого забега. Мы будем говорить, что в этом распределении – десять ячеек (bins). Посмотрим, что произойдет, если вместо десяти мы будем использовать пять ячеек. Первая ячейка будет для первого и второго места, вторая ячейка для третьего и четвертого места и так далее. Как это отразится на результатах?
Использование меньшего количества ячеек при том же наборе данных в результате дало бы распределение вероятности с тем же профилем, что и при большом количестве ячеек. То есть графически они бы выглядели примерно одинаково. Однако использование меньшего количества ячеек уменьшает информационное содержание распределения, и наоборот, использование большего количества ячеек повышает информационное содержание распределения. Если вместо финишных позиций лошадей в каждом забеге мы будем записывать время, за которое пробежала лошадь, округленное до ближайшей секунды, то получим не десять ячеек, а больше, и, таким образом, информационное содержание распределения увеличится.
|
|
Если бы мы записали точное время финиша, а не округленное до секунд, то могли бы построить непрерывное распределение. При непрерывном распределении нет ячеек. Представьте непрерывное распределение как серию бесконечно малых ячеек (см. рисунок 3‑1). Непрерывное распределение отличается от дискретного, которое является ячеистым распределением. Хотя создание ячеек уменьшает информационное содержание распределения, в реальной жизни это единственно возможный подход для обработки ячеистых данных, поэтому на практике приходится жертвовать частью информации, сохраняя при этом профиль распределения. И наконец, вы должны понимать, что можно взять непрерывное распределение и сделать его дискретным путем создания ячеек, но невозможно дискретное распределение переделать в непрерывное.
|
|
Когда мы имеем дело с торговыми прибылями и убытками, то чаще всего рассматриваем непрерывное распределение. Сделка может иметь множество исходов (хотя мы можем округлить цены до ближайшего цента). Для того чтобы работать с
таким распределением, потребуется разбить данные на ячейки, например шириной 100 долларов. Такое распределение имело бы отдельную ячейку для сделок, прибыли которых оказались ниже 99,99 доллара, другую ячейку для сделок от 100 до 199,99 доллара и так далее. При таком подходе будет определенная потеря информации, но профиль распределения торговых прибылей и убытков не изменится.
Рисунок 3‑1 Непрерывное распределение является серией бесконечно малых ячеек.
Величины, описывающие распределения
Многие из вас наверняка знакомы со средним, или, если говорить точнее, средним арифметическим (arithmetic mean). Это просто сумма значений, соответствующих точкам распределения, деленная на количество точек данных:
где А = среднее арифметическое;
X. = значение, соответствующее точке i;
N = общее число точек данных в распределении.
|
|
Среднее арифметическое является самым распространенным из набора величин, оценивающих расположение (location) или центральную тенденцию (central tendency) тела данных распределения. Однако вы должны знать, что среднее арифметическое является не единственным доступным измерением центральной тенденции, и зачастую не самым лучшим. Среднее арифметическое обычно оказывается плохим выбором, когда распределение имеет широкие хвосты (tails[11] ). Если при исследовании распределения с очень широкими хвостами вы случайным образом будете выбирать точки данных для расчета среднего, то, проделав это несколько раз подряд, увидите, что средние арифметические, полученные таким способом, заметно отличаются друг от друга. Еще одной важной величиной, определяющей расположение распределения, является медиана (median). Медиана описывает среднее значение, когда данные расположены по порядку в соответствии с их величиной. Медиана делит распределение вероятности на две половины таким образом, что площадь под кривой одной половины равна площади под кривой другой половины. В некоторых случаях медиана лучше задает центральную тенденцию, чем среднее арифметическое. В отличие от среднего арифметического медиана не искажается крайними случайными значениями. Более того, медиану можно рассчитать даже для распределения, в котором все значения выше заданной ячейки попадают в определенную ячейку. Примером такого распределения является рассмотренный выше забег лошадей. Любое финишное место после десятого записывается в десятое место. Медиана широко используется в Бюро Переписи США. Третьей величиной, определяющей центральную тенденцию, является мода (mode) – наиболее часто повторяющееся событие (или значение данных). Мода – это пик кривой распределения. В некоторых распределениях нет моды, а иногда есть более чем одна мода. Как и медиана, мода в некоторых случаях может лучше всего описывать центральную тенденцию. Мода никак не зависит от крайних случайных значений, и ее можно рассчитать быстрее, чем среднее арифметическое или медиану. Мы увидели, что медиана делит распределение на две равные части. Таким же образом распределение можно разделить тремя квартилями (quartiles), чтобы получить четыре области равного размера или вероятности, или девятью децилями (deciles), чтобы получить десять областей равного размера или вероятности, или 99 перцентилями (percentiles) (чтобы получить 100 областей равного размера или вероятности), 50‑й перцентиль является медианой и вместе с 25‑м и 75‑м перцентилями дает нам квартили. И наконец, еще один термин, с которым вы должны познакомиться, – это квантиль (quantile). Квантиль – это некоторое число N‑1, которое делит общее поле данных на N равных частей. Теперь вернемся к среднему. Мы обсудили среднее арифметическое, которое измеряет центральную тенденцию распределения. Есть и другие виды средних, они реже встречаются, но в определенных случаях также могут оказаться предпочтительнее. Одно из них – это среднее геометрическое (geometric mean), расчет которого дан в первой главе. Среднее геометрическое является корнем степени N из произведения значений, соответствующих точкам распределения.
|
|
где G = среднее геометрическое;
Х = значение, соответствующее точке i;
N = общее число точек данных в распределении.
Среднее геометрическое не может быть рассчитано, если хотя бы одна из переменных меньше или равна нулю.
Мы знаем, что арифметическое математическое ожидание является средним арифметическим результатом каждой игры (на основе 1 единицы) минус размер ставки. Таким же образом можно сказать, что геометрическое математическое ожидание является средним геометрическим результатом каждой игры (на основе 1 единицы) минус размер ставки.
Еще одним видом среднего является среднее гармоническое (harmonic mean). Это обратное значение от среднего обратных значений точек данных.
где Н = среднее гармоническое;
Х = значение, соответствующее точке i;
N = общее число точек данных в распределении.
Последней величиной, определяющей центральную тенденцию, является среднее квадратическое (quadratic mean), или среднеквадратический корень (root mean square).
где R = среднеквадратический корень;
Х = значение, соответствующее точке i;
N = общее число точек данных в распределении.
Вы должны знать, что среднее арифметическое (А) всегда больше или равно среднему геометрическому (G), а среднее геометрическое всегда больше или равно среднему гармоническому (Н):
G = среднее геометрическое;
А = среднее арифметическое.
Моменты распределения
Центральное значение, или расположение распределения, – первое, что надо знать о группе данных. Следующая величина, которая представляет интерес, – это изменчивость данных, или «ширина» относительно центрального значения. Мы назовем значение центральной тенденции первым моментом распределения. Изменчивость точек данных относительно центральной тенденции называется вторым моментом распределения. Следовательно, второй момент измеряет разброс распределения относительно первого момента.
Как и в случае с центральной тенденцией, существует много способов измерения разброса. Далее мы рассмотрим семь из них, начиная с наименее распространенных вариантов и заканчивая самыми распространенными.
Широта (range) распределения – это просто разность между самым высоким и самым низким значением распределения. Таким же образом широта перцентиля 10‑90 является разностью между 90‑й и 10‑й точками. Эти первые две величины измеряют разброс по крайним точкам. Остальные пять измеряют отклонение от центральной тенденции (т.е. измеряют половину разброса).
Семи‑интерквартильная широта (sem‑interquartile range), или квартальное отклонение (quartile deviation), равна половине расстояния между первым и третьим квартилями (25‑й и 75‑й перцентили). В отличие от широты перцентиля 10‑90, здесь широта делится на два.
Полуширина (half‑width) является наиболее распространенным способом измерения разброса. Сначала надо найти высоту распределения в его пике (моде), затем найти точку в середине высоты и провести через нее горизонтальную линию перпендикулярно вертикальной линии. Горизонтальная линия пересечет кривую распределения в одной точке слева и в одной точке справа. Расстояние между этими двумя точками называется полушириной.
Среднее абсолютное отклонение (mean absolute deviation), или просто среднее отклонение, является средним арифметическим абсолютных значений разности значения каждой точки и среднего арифметического значений всех точек. Другими словами (что и следует из названия), это среднее расстояние, на которое значение точки данных удалено от среднего. В математических терминах:
где М = среднее абсолютное отклонение;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
ABS() = функция абсолютного значения.
Уравнение (3.06) дает нам совокупное среднее абсолютное отклонение. Вам следует знать, что можно рассчитать среднее абсолютное отклонение по выборке. Для расчета среднего абсолютного отклонения выборки замените 1 / N в уравнении (3.06) на 1 / (N ‑ 1). Используйте эту версию, когда расчеты ведутся не по всей совокупности данных, а по некоторой выборке.
Самыми распространенными величинами для измерения разброса являются дисперсия и стандартное отклонение. Как и в случае со средним абсолютным отклонением, их можно рассчитать для всей совокупности и для выборки. Далее показана версия для всей совокупности данных, которую можно легко переделать в выборочную версию, заменив l/NHal/(N‑l). Дисперсия (variance) чем‑то напоминает среднее абсолютное отклонение, но при расчете дисперсии каждая разность значения точки данных и среднего значения возводится в квадрат. В результате, нам не надо брать абсолютное значение каждой разности, так как мы автоматически получаем положительный результат, независимо от того, была эта разность отрицательной или положительной. Кроме того, так как в квадрат возводится каждая из этих величин, крайние выпадающие значения оказывают большее влияние на дисперсию, а не на среднее абсолютное отклонение. В математических терминах:
где V = дисперсия;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных.
Стандартное отклонение (standard deviation) тесно связано с дисперсией (и, следовательно, со средним абсолютным отклонением). Стандартное отклонение является квадратным корнем дисперсии.
Третий момент распределения называется асимметрией (skewness), и он описывает асимметричность распределения относительно среднего значения (рисунок 3‑2). В то время как первые два момента распределения имеют размерные величины (то есть те же единицы измерения, что и измеряемые параметры), асимметрия определяется таким способом, что получается безразмерной. Это просто число, которое описывает форму распределения.
Положительное значение асимметрии означает, что хвосты больше с положительной стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевую асимметрию.
Рисунок 3‑2 Асимметрия
Рисунок 3‑3 Асимметричное распределение
В симметричном распределении среднее, медиана и мода имеют одинаковое значение. Однако когда распределение имеет ненулевое значение асимметрии, оно может принять вид, показанный на рисунке 3‑3. Для асимметричного распределения (любого распределения с ненулевой асимметрией) верно равенство:
(3.08) Среднее ‑ Мода = 3 * (Среднее ‑ Медиана)
Есть много способов для расчета асимметрии, и они часто дают различные ответы. Ниже мы рассмотрим несколько вариантов:
(3.09) S == (Среднее ‑ Мода) / Стандартное отклонение
(3.10) S = (3 * (Среднее ‑ Медиана)) / Стандартное отклонение
Уравнения (3.09) и (3.10) дают нам первый и второй коэффициенты асимметрии Пирсона. Асимметрия также часто определяется следующим образом:
где S = асимметрия;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
И наконец, четвертый момент распределения, эксцесс (kurtosis) (см. рисунок 3‑4), измеряет, насколько у распределения плоская или острая форма (по сравнению с нормальным распределением). Как и асимметрия, это безразмерная величина. Кривая, менее остроконечная, чем нормальная, имеет эксцесс отрицательный, а кривая, более остроконечная, чем нормальная, имеет эксцесс положительный. Когда пик кривой такой же, как и у кривой нормального распределения, эксцесс равен нулю, и мы будем говорить, что это распределение с нормальным эксцессом.
Как и предыдущие моменты, эксцесс имеет несколько способов расчета. Наиболее распространенными являются:
где К = эксцесс;
Q == семи‑интерквартильная широта;
Р = широта перцентиля 10‑90.
(3.13) К = (1 / N (∑ (((X ‑ Аi) / D)^ 4))) ‑ 3,
где К = эксцесс;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
Рисунок 3‑4 Эксцесс
Наконец, необходимо отметить, что «теория», связанная с моментами распределения, намного серьезнее, чем то, что представлено здесь. Для более глубокого понимания вам следует просмотреть книги по статистике, упомянутые в списке рекомендованной литературы. Для наших задач изложенного выше вполне достаточно.
До настоящего момента рассматривалось распределение данных в общем виде. Теперь мы изучим нормальное распределение.
Нормальное распределение
Часто нормальное распределение называют распределением Гаусса, или Муавра, в честь тех, кто, как считается, открыл его – Карл Фридрих Гаусс (1777‑1855) и, веком ранее, что не так достоверно, Авраам де Муавр (1667‑1754). Нормальное распределение считается наиболее ценным распределением, благодаря тому, что точно моделирует многие явления. Давайте рассмотрим приспособление, более известное как доска Галтона (рисунок 3‑5). Это вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска.
Рисунок 3‑5 Доска Галтона
Шарики, падающие через доску Галтона и достигающие желобов, начинают формировать нормальное распределение. Чем «глубже» доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем ближе конечный результат будет напоминать нормальное распределение.
Нормальное распределение интересно еще и потому, что оно является предельной формой многих других типов распределений. Например, если Х распределено биномиально, а N стремится к бесконечности, то Х стремится к нормальному распределению. Более того, нормальное распределение также является предельной формой многих других ценных распределений вероятности, таких как Пуассона, Стьюдента (или t‑распределения). Другими словами, когда количество данных (N), используемое в этих распределениях, увеличивается, они все более напоминают нормальное распределение.
Дата добавления: 2018-10-26; просмотров: 226; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!