Анализ вероятностных графиков



 

Построенный вероятностный график является накопителем статистических данных и расчетным средством. Анализ статистических данных начинается с оценок мер распределения.

Меру положения находят, опустив перпендикуляр из точки пересечения уровня 0,5 вертикальной оси с построенной прямой Fт(х) для нормального распределения или с уровнем 0,632 для Вейбулловского распределения.

На уровне 0,5 считывается среднее арифметическое значение  (математическое ожидание) и медиана .

На уровне 0,632 считывается характеристическое значение Хе. Это значение часто интерпретируют в качестве среднего – средняя продолжительность жизни, зарплата, прочность и т.п.

Индекс е обозначает натуральное число. Общепринятого обозначения характеристического значения в литературе нет.

 

 

 

 


                           

 

а)                                                                                           б)

 

Рис. 27. Оценка мер распределения по графикам:

а) вероятностного графика нормального распределения;

б) вероятностного графика Вейбулловского распределения.

 

Меру формы следует искать, опустив перпендикуляры из точек пересечения двух уровней, отмеченных на вертикальном масштабе с построенной прямой Fт(х).

Они «индивидуальны» для нормального (НР) и Вейбулловского (ВР) распределений. Для НР можно выбрать два уровня: 0,16 и 0,023, соответствующие квантилям Х0,16 и Х0,02 и по ним найти среднее квадратичное отклонение:

 

s = Х0,16 – Х0,02

 

Выше упоминались квантили Х0,1 и Х0,01, разность между которыми тоже равна s.

Для ВР удобно выбрать уровни 0,1 и 0,01 по упомянутым квантилям определяется параметр формы К

 

lg Х0,1 – lg Х0,01 = 1/К

 

Аналогичным образом могут определяться меры всех остальных теоретических распределений, которые можно найти в специальной литературе, в основном, американской и немецкой. К примеру, двойное экспоненциальное распределение, «модное» в США, или первое предельное по Колмогорову – это линейный масштаб по горизонтали и ВР по вертикали. Квантили считываются те же для оценки мер рассеяния.

Расчет статистических мер по вероятностному графику проще общепринятого по формулам и достовернее, поскольку проверяется адекватность математической модели практическим данным.

 

Оценка согласия эмпирических и теоретических

Распределений

 

Согласие Fт(х) и Fэ(х) оценивается с целью проверки достоверности всех последующих расчетов.

Для оценок обычно применяют стандартные критерии согласия. Всего их известно до 200, но применяют практически, в основном, два: c2 (хи–квадрат) и Колмогорова. Оцениваются разности Fэ(х) и Fт(х) в сравнении с табулированными данными, по которым выясняются соответствие или несоответствие сравниваемых функций. При этом задаются ошибками первого и второго родов.

Для понимания сути этих ошибок полезно вообразить поиск адреса в полузабытом районе. Ошибка первого рода – это вход в подъезд не того дома, но напомнившего искомый. Ошибка второго рода – это незамеченный и пропущенный подъезд, являющийся искомым.

Критерий согласия комплектуется таблицами для выбора доверительных интервалов, внутри которых согласие Fт(х) и Fэ(х) не отрицается. Выбор осуществляется, исходя из доверительной вероятности g. В таблицах есть значения g от 0,001 до 0,999, что вполне перекрывает любые предпочтения исследователей. Однако, у многих возникает недоумение в связи со смыслом расчетов, в которых можно произвольно менять результат, избирая g. Констатация соответствия Fт(х) и Fэ(х) при g = 0,15, к примеру, ничего не скажет тем, кто привык к детерминированным моделям, поскольку при g = 0,1 соответствия уже нет.

Исследователю, работающему с критериями согласия, необходимо представить себе процесс отбора выборок из статистического ансамбля, который аппроксимируется Fт(х). Если для каждой выборки строить Fэ(х), то они будут заполнять некоторое поле графика, причем, часть из них уложится в «Прокрустово ложе» доверительных интервалов, а другая будет «перехлестывать» их.

Для исследуемого статистического ансамбля можно выбрать узкие доверительные интервалы, к примеру, g = 0,1. Тогда из 10 выборок, взятых из одного ансамбля, будет только одна, чья Fэ(х) будет полностью внутри доверительных интервалов. Если взять g = 0,9, то, соответственно, лишь 1 выборка будет с Fэ(х), не уложившейся в доверительные интервалы. При этом соответствие статистическому ансамблю Fт(х) не отрицается.

Первая ошибка, подстерегающая исследователя – это признание соответствия Fэ(х) некоей F1(х), которая предназначена для других статистических ансамблей. Это признание желаемого за действительное. Похоже на выбор рыбака – столь мелкая сетка, что захватывает ненужных мальков.

Вторая ошибка настигает исследователя, когда он отвергает соответствие Fэ(х) той самой функции F0(х), которая предназначена для анализируемого статистического ансамбля. Это отрицание реальности напоминает выбор рыбака: крупная сетка, пропускающая, кроме всего лишнего, основную часть улова.

Различия критериев можно уподобить избирательности фильтров верхних и нижних частот. Критерии согласия принято различать по мощности b. 1 – b является вероятностью того, что будет признано соответствие гипотезе F1(х), в то время как на самом деле соответствует эмпирическая функция F0(х), т.е. ошибка 1 рода. Ошибка 2 рода – это отрицание соответствия F0(х), в то время как она верна.

Критерии согласия применяются в практических задачах в качестве меры соответствия эмпирического и теоретического распределений, исходя из g = 0 для представительной выборки. Кроме того, по критерию сравниваются опубликованные данные о статистических мерах, нормируются требования к случайным процессам, прогнозируются итоги оценок для малых выборок и т.п.

Недостатками мощных критериев являются чрезмерные объем и сложность вычислений и, для практических задач, отсутствие возможностей учета физико-технических данных, определяющих вариацию исследуемых значений Fэ(х).

Конкретные сведения об исследуемом предмете могут в существенной мере уменьшить риски ошибок при выборе статистических гипотез. Сравнение Fэ(х) и Fт(х) будет тем корректнее, чем подробнее будут известны причинно–следственные связи, определяющие рассеивание Fэ(х), а также граничные и начальные условия, исходя из которых выведено аналитическое выражение Fт(х).

Стремление выбирать статистические гипотезы с учетом знаний исследователя проявилось в отечественной литературе обилием гистограмм (полигонов) распределения. Именно гистограммы оказались несравненно «доходчивыми», доступными восприятию и манипуляциям. К сожалению, гистограммы лишены метрологических свойств, как отмечалось выше. Исследователи нередко делают по гистограммам далеко идущие выводы, в частности, о «бимодальности» и даже «многомодальности». В реальности могут присутствовать смеси нескольких ансамблей, но могут быть и неверно избранные теоретические распределения.

«Доходчивость» вероятностного графика – дело привычки, главное, доступность статистическим расчетам.

На вероятностном графике можно изобразить доверительные интервалы с избранной g для любого критерия согласия – по табличным значениям квантилей. Стандартные критерии согласия будут представлены кривыми, «симметричными» относительно прямой Fт(х). Кривизна эта усложняет графические расчеты.

Мощные критерии согласия содержат весовую функцию, которая увеличивает «вклад» реализации по мере удаления от центра. Графически этот прием отображается спрямлением доверительных интервалов. Аналитическое выражение весовой функции здесь не рассматривается, как и все прочие формулы. Констатируется лишь, что нет препятствий для формирования такой функции. Для критериев с табулированными квантилями доступны расчеты взаимосвязей между данными в численной форме.

 

Для вероятностного графика являются предпочтительными доверительные интервалы, параллельные прямой Fт(х) т.е. прямые, параллельные и равноудаленные от Fт(х).

Рис. 28. Построение доверительных интервалов.

Здесь а и в - ширина доверительных интервалов в долях меры рассеивания s .

 

    Если задача решается «для себя», то параллельные интервалы являются самыми удобными. Ширина этих интервалов считывается по вертикальному масштабу – в долях меры рассеивания. Между интервалами укладываются все значения FЭ(х) (см. рис. 28).

Для читателей посторонних, необходимо пересчитывать на общепринятые критерии согласия данные из зоны центра группирования. В областях экстремальных значений официальные кривые разойдутся на неприемлемые для многих задач расстояния. Придется вводить мощный критерий с весовой функцией. Во всех сомнительных ситуациях можно установить истину исключительно повторными экспериментами, оцениваемыми на сходимость с расчетными данными.

Нередки Fэ(х), которые хорошо аппроксимируются прямой линией, но есть одна или несколько точек, досадно отклонившихся от избранной гипотезы. Возникает соблазн исключить их из анализа, тем более что есть руководства, советующие признавать «заблудшие» точки выбросами. Это предложения весьма некорректны, категорически нельзя подгонять эксперимент под модель. Все точки должны быть оставлены на графике. Наибольшие отклонения DХэт оцениваются парой соответствующих квантилей. Аналогичная оценка производится на участках с односторонним положением точек относительно прямой. Названные признаки могут оказаться в последствии либо несущественными, либо, наоборот, успехом научного поиска, только не следствием волюнтаризма.

 


Дата добавления: 2019-01-14; просмотров: 315; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!