Полигон и кумулята дискретного распределения.



Предмет и задачи математической статистики

Математическая статистика – это наука, занимающаяся методами обработки экспериментальных данных. Любая наука решает в порядке возрастания сложности и важности следующие задачи:

1) описание явления;

2) анализ и прогноз;

3) поиск оптимального решения.

Такого рода задачи решает и математическая статистика:

1) систематизировать полученный статистический материал;

2) на основании полученных экспериментальных данных оценить интересующие нас числовые характеристики наблюдаемой случайной величины;

3) определить число опытов, достаточное для получения достоверных результатов при минимальных ошибках измерения.

Одной из задач третьего типа является задача проверки правдоподобия гипотез. Она может быть сформулирована следующим образом: имеется совокупность опытных данных, относящихся к одной или нескольким случайным величинам. Необходимо определить, противоречат ли эти данные той или иной гипотезе, например, гипотезе о том, что исследуемая случайная величина распределена по определенному закону, или две случайные величины некоррелированы (т.е. не связаны между собой) и т.д. В результате проверки правдоподобия гипотезы она либо отбрасывается, как противоречащая опытным данным, либо принимается, как приемлемая.

Таким образом, математическая статистика помогает экспериментатору лучше разобраться в полученных опытных данных, оценить, значимы или нет определенные наблюденные факты, принять или отбросить те или иные гипотезы о природе рассматриваемого явления.

Генеральная совокупность и выборка. Сущность выборочного метода

Основу статистического исследования составляет множество данных, полученных в результате измерения одного или нескольких признаков. Реально наблюдаемая совокупность объектов, статистически представленная рядом наблюдений случайной величины , является выборкой, а гипотетически существующая (домысливаемая) — генеральной совокупностью. Генеральная совокупность может быть конечной (число наблюдений N = const) или бесконечной (N = ∞), а выборка из генеральной совокупности — это всегда результат ограниченного ряда наблюдений. Число наблюдений , образующих выборку, называется объемом выборки. Если объем выборки достаточно велик (n → ∞) выборка считается большой, в противном случае она называется выборкой ограниченного объема. Выборка считается малой, если при измерении одномерной случайной величины объем выборки не превышает 30 (n <= 30), а при измерении одновременно нескольких (k) признаков в многомерном пространстве отношение n к k не превышает 10 (n/k < 10). Выборка образует вариационный ряд, если ее члены являются порядковыми статистиками, т. е. выборочные значения случайной величины Х упорядочены по возрастанию (ранжированы), значения же признака называются вариантами.

Пример. Практически одна и та же случайно отобранная совокупность объектов — коммерческих банков одного административного округа Москвы, может рассматриваться как выборка из генеральной совокупности всех коммерческих банков этого округа, и как выборка из генеральной совокупности всех коммерческих банков Москвы, а также как выборка из коммерческих банков страны и т.д.

Выборочный метод - статистический метод исследования общих свойств совокупности каких-либо объектов на основе изучения свойств лишь части этих объектов, взятых на выборку.

В предыдущем разделе результаты наблюдений, используемых для оценки распределения вероятностей или его параметров, подразумевались независимыми. Хорошо изученным примером использования зависимых наблюдений может служить оценка эмпирического распределения или его параметров в "генеральной совокупности" из N объектов по произведённой из неё "выборке", содержащей n < N объектов.

Примером применения выборочного метода может служить следующий. Пусть в партии из N изделий имеется L дефектных. Из партии отбирается случайным образом n < N изделий. Вероятность того, что число l дефектных изделий в выборке будет равно m, равна

Таким образом, l и соответствующая относительная частота h = l/n оказываются случайными величинами, распределение которых зависит от параметра L или, что то же самое, от параметра H = L/N. Задача оценки относительной частоты H по выборочной относительной частоте h очень похожа на задачу оценки вероятности p по относительной частоте h при n независимых испытаниях. При больших п с вероятностью, близкой к единице, в задаче об оценке вероятности имеет место приближённое равенство p ~ h, а в задаче об оценке относительной частоты - приближённое равенство H ~ h. Однако в задаче об оценке H формулы сложнее, а отклонения h от H в среднем несколько меньше, чем отклонения h от p в задаче об оценке вероятности (при том же n). Таким образом, оценка доли H дефектных изделий в партии по доле h дефектных изделий в выборке при данном объёме выборки n производится всегда (при любом N) несколько точнее, чем оценка вероятности p по относительной частоте h при независимых испытаниях. Когда N/n → ∞, формулы задачи о выборке переходят асимптотически в формулы задачи об оценке вероятности p.

5.

Частоты — это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости ( ) — это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Полигон и кумулята дискретного распределения.

Для дискретных вариационных рядов графиком является полигон распределения.

Полигоном распределения называется ломаная линия, соединяющая точки с координатами или где - дискретное значение признака, - частота, - частость.

График строится в принятом масштабе. Вид полигона распределения приведен на рис.

Для изображения интервальных вариационных рядов применяют гистограммы, представляющие собой ступенчатые фигуры, состоящие из прямоугольников, основания которых равны ширине интервала , а высота - частоте (частости ) равноинтервального ряда или плотности распределения неравноинтервального Построение диаграммы аналогично построению столбиковой диаграммы. Общий вид гистограммы приведен на рис. 5.2.

Для графического представления вариационных рядов может использоваться также кумулята – ломаная линия, составленная по накопленным частотам (частостям). Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид. Координатами точек на графике для дискретного ряда являются для интервального ряда - Начальная точка графика имеет координаты самая высокая точка - Общий вид кумуляты приведен на рис.5.3. Использование кумуляты особенно удобно при проведении сравнений вариационных рядов.

При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат. В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания.

Квантили

Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:

• квартили – значения признака, делящие упорядоченную совокупность на 4 равные части;

• децили – значения признака, делящие совокупность на 10 равных частей;

• перцентели - значения признака, делящие совокупность на 100 равных частей.

Если данные сгруппированы, то значение квартиля определяется по накопленным частотам: номер группы, которая содержит i -ый квантиль. Определяется как номер первой группы от начала ряда, в котором сумма накопленных частот равна или превышает i ·N, где I – индекс квантиля. Если ряд интервальный, то значение квантиля определяется по формуле:


Дата добавления: 2018-09-23; просмотров: 410; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!