Предварительный статистический анализ (ПСА)



 

ПСА производится в процессе накопления данных в информационной системе, обеспечивая их классификацию и структурирование, а также минимизацию ошибок в процессе сбора и обработки информации.

В ПСА уточняются правила заполнения первичных форм учета, состав и содержание фиксируемых данных.

    Все данные, накапливаемые информационной системой, делятся на три вида:

1. Эмпирические данные. «Эмпирику» получают непосредственно в производстве или в ходе экспериментов. Данные количественные, необходимые для моделей расчетных, считывают с приборов, записывают при испытаниях, считывают по анкетам и т.д. Эмпирические данные записывают:

- в табличной форме;

- в графической форме.

Таблица и график могут быть взаимозаменяемыми. Таблица проще в исполнении и точнее представляет данные. График «доходчивее» позволяет обнаруживать тенденции в поступающих данных, интерполировать или экстраполировать, и т.д. Сегодня прикладные программы обеспечивают вывод данных в обеих формах, по выбору оператора.

    2. Теоретические данные. Теоретический аппарат является продуктом деятельности математиков и проектировщиков. Количественные данные в расчетных моделях являются гипотетическими, т.е. плодами интеллектуальной деятельности. Эти данные могут быть представлены в аналитической форме, в виде формул или в ином символьном представлении, а также и табличной и в графической формах.

Теоретические и эмпирические графики часто объединяют для сравнения, иллюстрируя степень их адекватности. Аналогично поступают с таблицами.

    3. Опубликованные данные, заимствованные из официальных источников. Нормативно-техническая документация: от ГОСТов до стандартов предприятия, справочники и реклама, периодика и профессиональные книги, итоги семинаров и деловых встреч. НТД регламентирует номинальные и предельные значения на все количественные признаки. Номиналы и допуски являются, естественно, детерминированными значениями.

    Таким образом, к известным и неизвестным величинам в расчетах, привычным со школы, добавляются величины детерминированные и статистические, и, кроме того, величины собственные и заимствованные.

    Заимствованные или цитируемые величины могут быть приведены в разнообразных интерпретациях и без сведений об их достоверности. При необходимости их совместного анализа может потребоваться их обработка по методике, отличной от авторской.

    В практических задачах совместно используются и эмпирические и теоретические данные. Прикладные программы сопоставляют все данные в табличной форме, поскольку это гораздо удобнее для цифровой обработки.

    Однако никакие программы не могут предугадывать стратегию анализа и, тем более, синтеза, так что необходим диалог с оператором – интерактивный режим.

    Человек воспринимает графики несравненно быстрее и достовернее, чем таблицы и, тем более, формулы. Поэтому диалог с ЭВМ рациональнее вести в графической форме. Выбор графической интерпретации становится единственно возможным для необозримо объемных массивов цифр и формул с труднодоступным смыслом.

    Применение статистических расчетов в практических задачах привносит риск ошибок из-за неопытности или нерадивости работника.

    Нечто подобное было при компьютеризации менеджмента, однако своевременно появились книги, типа «Компьютер для чайников». К сожалению, нет на сегодня «Матстатистики для чайников».

    Статистическая литература изложена весьма корректным математическим языком. Если практические задачи не укладываются в Прокрустово ложе математической модели, то никаких рекомендаций по их решению не отыскать. К сожалению, идеальная для математики практика является, скорее, исключением, чем правилом.

    В этом пособии используется исключительно графическая интерпретация всех маркетинговых задач. Расчетные формулы не используются, приводятся пояснения для решений, доступных и полезных в практической деятельности.

    Инженер и маркетолог, применяющие статистические расчеты, обретают значительное конкурентное преимущество, ради которого есть смысл преодолеть неприятие, воспитанное вузом. Освоение стохастического моделирования, это не просто вооружение новым инструментом, это рост уровня мышления. Видя, к примеру, рекламу с исхудавшей дамой, поедающей некое средство, уже не придется бежать за покупкой. Вспомнятся риски симптомов, не упомянутых в рекламе, и меры рассеяния веса худеющих.

    В экономических учебниках обычно приводятся графики хозяйственной деятельности за много лет. Замысловатая зависимость от времени вала или цен объясняется по детерминированной модели. Обычно ищется колебательный процесс с периодом и амплитудой колебаний. Спад рассматривается, как непременный предвестник подъема – вроде качелей.

    Стохастическая модель отрицает связь соседних значений, так что по предыдущему значению нельзя прогнозировать последующее аксиоматически. В любой точке спада может быть рывок и вверх и вниз. Источников гармонических колебаний может не быть вовсе, а причины случайных флюктуаций всегда налицо.

    Стохастические модели описывают случайные процессы, состоящие в чередовании множества значений исследуемых признаков. Моментные оценки случайных процессов представляют случайные величины. Множество измерений исследуемого признака или предполагаемых его значений составляет статистический ансамбль.

Математики предлагают устремить к бесконечности исследуемое множество, и называют его генеральной совокупностью.

В практических задачах оперируют множествами с конечными объемами. Изделия, в частности, или товары, характеризуют объемами партий N. Партия является целью исследований, причем часто недоступной из-за непомерных затрат или физических ограничений. Партию представляют в качестве статистического ансамбля при ее чрезмерном для исследований объеме, например, более 105.

Для исследования партии применяют эмпирические распределения (ЭР), для чего комплектуют по обоснованным правилам выборки с объемом n. Правила составления выборки должны гарантировать случайность, т.е. равные шансы отбора у всех элементов. Иллюстрацией этих правил является смешивание шаров в барабане и участие ребенка в изъятии шара. Отбор из партии элементов выборки должен обеспечивать равенство статистических показателей партионных и выборочных т.е. представительность выборки. ЭР может быть представлено графически или таблично колонками цифр.

Стохастическая модель оперирует теоретическим распределением (ТР) случайной величины. ТР – это средство исследования статистического ансамбля, представляемое в аналитической форме. Кроме того, оно представляется в графической и табличной формах. Аналитическая форма создается математиком посредством весьма сложных выкладок, приближающих модель к избранным объектам. По формулам создаются программы, формирующие таблицы и графики в компьютере для сравнения с эмпирическими данными. Значения случайной величины принято назы

 

Рис. 21. Гистограмма распределения.

 

вать реализациями. Эмпирические распределения составляются показаниями приборов, записями в анкетах и т.п.

Известно несколько вариантов графического представления стохастических моделей. Самой широкоупотребительной, а во многих источниках единственной, является гистограмма распределения.

Известные методики построения гистограмм отличаются разнообразием, так что не всегда возможно совмещение данных из разных источников.

Общим для всех методик является размещение под горизонтальной осью с линейным масштабом Х всех значений исследуемого признака Хi. Значения откладываются в виде точек в соответствии с избранным масштабом. Здесь и далее горизонтальная ось называется параметрической, а выборка - упорядоченной.

Параметрическую ось делят на несколько равных интервалов и подсчитывают число точек в каждом интервале – «частость». Частости ni откладывают по вертикальной оси, предварительно поделив на общее число значений n. Сумма относительных частостей во всех интервалах равна единице.

В университетах США студентам показывают физические модели распределений. Это наклонные доски, с которых скатываются шарики. Низ доски разделен барьерами на «загоны» для шариков. На доске имитируются воздействия на шарики, формирующие распределение их между барьерами. Множество скатывающихся шариков создает иллюстрацию теоретического распределения внизу доски. Старт шариков – в центре верха доски.

Причины рассеивания имитируются шпильками, установленными на пути шариков. В результате соударений шарики катятся к разным барьерам, «материализуя» гистограмму на нижней кромке.

Для любого теоретического распределения можно рассчитать форму гистограммы, задавшись числом интервалов и предположив бесконечный объем партии. О теоретических распределениях есть обширная библиотека, причем каждое распределение, а их более 300, построено на конкретных условиях. Выбор теоретического распределения для практической задачи можно уподобить составлению фоторобота в криминалистике. В науке можно найти аналогию с изучением спектральных линий, определяющих наличие примесей в веществе.

На рис. 21 представлена гистограмма с эмпирическими значениями в виде точек и прямоугольниками, высота которых пропорциональна числу точек в интервале. Подобные гистограммы часто приводятся в литературе. Их форма зависит не только от представленных данных, но и от методики построения.



                  

 

Известные методики различаются по приемам выбора числа интервалов, размещения крайний интервалов относительно экстремальных значений, учета точек на границах интервалов и т.п. Различия существенны, при необходимости сравнения гистограмм из разных источников приходится перестраивать их по одной методике.

 

Для обработки эмпирических данных рекомендуется следующая методика построения гистограммы:

1. Число измерений (реализаций) фиксировано n = 32.

2. Все значения размещаются под горизонтальной (параметрической) осью в виде точек. Отмечаются максимальные Xmax и минимальные Xmin значения, а также срединное – медиана , для чего отсчитывается 16 точек справа и слева.

3. От медианы  откладывается вправо и влево по три равных интервала так, чтобы все точки оказались внутри интервалов при наименьшей их ширине.

4. Подсчитывается число точек в интервалах, причем, точки на границах интервалов разносят на обе стороны пополам. Строятся прямоугольники с высотой, пропорциональной числу точек в интервале.

В гистограмме «заложена» методическая погрешность из-за смешивания точек в интервале, поэтому большие выборки избыточны. Фиксированное число точек устраняет вариацию гистограмм из-за разных объемов. Построение интервалов от центра, а не от краев, как это принято, обосновано тем, что вариация экстремальных значений значительно больше, чем у медианы. Использование 6 интервалов вытекает из общеизвестного правила «3s». Если наблюдаемая выборка представительна и соответствует этому правилу, то медиана  равна среднему арифметическому значению , а ширина интервала равна s. Эмпирические гистограммы доступны сравнению с теоретической по правилу «3s», у которой число значений в интервалах составляет:

 

Рис. 22. Теоретическая гистограмма распределения.

 

    Среднее арифметическое значение или просто среднее  является самым широко известным статистическим показателем. Оно просто рассчитывается, тем более, с калькулятором – складываются измерения, а сумма делится на число измерений.

    По гистограмме прочесть среднее еще проще, причем, одновременно оценивается форма. Если форма отличается от названного выше правила, то расчет  теряет смысл. Равно как и s, хоть его и рекомендуют считать по соответствующей формуле.

    Гистограмму рационально применять при приближенных, ориентировочных оценках распределений эмпирических данных. Прежде всего, устанавливается сам факт наличия статистической информации – наличие различающихся значений х i  количественного признака Х . Если все значения совпадают, надо считать признак детерминированным. Различия значений х i позволяет составить упорядоченную выборку, в которой значения выстраиваются «по росту» от х min до х max . Говорят о ранжировании Х – именно для этого удобна параметрическая ось.

Комплект измерений Х определяет вариацию признака Х с размахом

 

R = x max – x min .

 

Статистические меры

Во многих расчетах достаточно точечных оценок, т.е. определения статистического ансамбля одним или двумя числами. Этими числами являются статистические меры. Основными видами этих мер являются меры центра группирования (положения) и меры рассеяния (формы).

 

Меры центра группирования

 

1. Выше упомянутая мера  называется среднеарифметическим или средневзвешенным значением, а в теоретическом распределении – математическим ожиданием.

Физическая модель этой меры может быть составлена из линейки с масштабом для параметра Х и кнопок, каждая из которых представляет значение х i. После размещения всех кнопок линейку уравновешивают на опоре – в точке, определяющей .

2. Медиану  определяют по упорядоченной выборке. Это срединное значение: половина выборки меньше, а другая половина больше медианы. Ситуация когда медиана  равна среднему  встречается, когда распределение симметрично.

 


Рис. 23. Точечные оценки (распределение несимметричное).

3. Среднее геометрическое значение, получают, складывая логарифмы реализаций и разделив на число измерений. Применяется сравнительно редко.

4. Характеристическое значение Хе определяется по упорядоченной выборке. Больше этого значения – доля выборки 0,368 (это величина, обратная натуральному числу е).

Все меры центра группирования определяют положение на параметрической оси основной части выборки или статистического ансамбля, сгруппированные относительно тесно, причем доля «центральных» значений порядка 0,9.

Остальная часть выборки или партии находятся в областях максимальных и минимальных значений.

 

Меры рассеяния

        

Чаще всех прочих, применяется среднее квадратичное отклонение s (стандартное отклонение или просто стандарт S).

    Эту меру рассчитывают по общеизвестной формуле или считывают, как ширину интервала на графике. Последнее предпочтительнее, поскольку форма свидетельствует о корректности применения s – меры нормального распределения.

    Каждое теоретическое распределение имеет свою меру рассеивания. При неопределенности теоретического распределения возникает необходимость в «универсальных» мерах, которые несложно пересчитывать в специальные меры. «Универсальными» являются квантили Хр. Квантили определяются по упорядоченной выборке. Значение квантиля Хр больше значений, доля которых равна Р. В качестве меры рассеивания удобно использовать пару квантилей:

Х0,1 – из 100 значений в выборке десять значений меньше Х0,1;

Х0,01 – из 100 значений в выборке одно значение меньше Х0,01.

По этим квантилям удобно рассчитывать меры рассеивания, например (см. рис. 22):

Х0,1 – Х0,01 = s

 

Квантили упоминаются в публикациях, в частности, сравнение доходов богатых и бедных производится на уровне 10%. Это квантили Х0,1 – самые бедные и Х0,9 – самые богатые.

 

Функции распределения

 

Стохастическая модель строится на основе функций распределения – теоретической F т (х) и эмпирической F э (х) для расчетов, не ограниченных по точности и достоверности.

    Теоретическая функция распределения Fт(х) имеет смысл вероятности того, что случайная величина (СВ) Х не превысит текущего значения Х. При изменении Х от –¥ до +¥ значения Fт(х) меняются от 0 до 1.

    Функция Fт(х) дифференцируема во всей области своего существования. Для этого вводится математиками аксиома о превращении множества точек в непрерывную линию при устремлении их количества к бесконечности.

    Результатом дифференцирования является f(х) – функция распределения плотностей вероятностей. Именно эту функцию изображают в виде «колокола». Гистограмма рассматривается, как графическая интерпретация f(х). При интегрировании f(х) получают интегральную функцию распределения F(х).

Аналитическое выражение Fт(х) может быть неосуществимо и тогда применяется численное интегрирование.

Технико-экономическая литература оперирует, как правило, функцией распределения плотностей вероятностей f(х), её графическими представлениями, полигоном, в частности, а также её мерой – модальным значением.

Однако в практических задачах все партии имеют конечный объем и устремлять его к бесконечности не всегда корректно.

В итогах измерений могут быть разрывы т.е. недифференцируемость. Между тем, многие авторы анализируют модальные значения, трактуют бимодальность и т.п. результаты с чрезмерным риском ошибок. Методические погрешности являются главным недостатком гистограмм.

 Функция распределения F(х) является неубывающей, для нее не требуются интервалы, каждое значение сохраняет исходную точность. Именно это обеспечивает ее отличные метрологические характеристики и доступность для прецизионных расчетов. В последующем изложении используются исключительно функции распределения Fэ(х) и Fт(х).

 

5.4.1. Эмпирическая функция распределения Fэ(х)

 

Эмпирическая функция распределения имеет смысл долей объема упорядоченной выборки со значениями, не превышающими растущий параметр Х.

Fэ(х) меняется от 0 до 1 при росте параметра Х от х min до х max.

Функция Fэ(х) совместно с Fт(х) является средством исследования статистических ансамблей (партий). Применяются Fэ(х) и Fт(х) совместно, поскольку необходимым условием во всех задачах являются оценки адекватности.

Fэ(х) представляется в табличной форме или графически как зависимость от аргумента Х долей упорядоченной выборки, включающих в себя значения, не превышающие Х.

 

 


Рис. 24. Построенная функция Fэ(х) (см. гистограмму на рис. 21).

На поле графика откладываются точки, число которых равно объему выборки.

Сначала все значения откладываются под параметрической осью, также как в гистограммах. Далее моделируют рост Х, например, перемещая лист бумаги, открывают точки, начиная с хmin. Доля открывшихся точек отмечается соответствующей ординатой по масштабу вертикальной оси. Каждая точка добавляет долю 1/ n, а последняя – на уровне хmax 1-1/ n; чтобы оценки не были смещенными, координаты ищут справа и слева сводя ошибку к центру.

 

 


Рис. 25. Построение функции Fэ(х) (сведение ошибки в центр).

Здесь ni – доля открывшихся точек.

На поле графика рисуют ступеньки или просто точки – в зависимости от вкусов исполнителя (см. рис. 24). Главная особенность Fэ(х) – отсутствие методических погрешностей. Абсцисса каждой точки равна измерению. Число точек на графике равно числу измерений, которые удалось отличить от ближайших к ним значений. Именно поэтому Fэ(х) используется в статистических задачах в которых нужно минимизировать погрешность расчетов.

Масштаб вертикальной оси иногда выбирается линейный. Строить функции распределения можно в любом масштабе, однако для последующих графических расчетов необходимо соблюсти «метрические» условия.

В линейном масштабе точки будут укладываться на некую кривую, которую трудно соотнести со статистическими мерами. Сравнение таких кривых между собой неосуществимо в численной форме. Такие кривые обладают лишь зрелищными признаками и в этом плане похожи на гистограммы или полигоны.

Доступность статистическим расчетам, достаточным для решения производственных задач, включая маркетинговые, имеет место при использовании вероятностных масштабов вертикальной оси т.е. в вероятностных графиках.

 

Вероятностные графики

 

Вертикальный масштаб вероятностного графика рассчитан таким образом, чтобы любая прямая на поле графика представляла собой теоретическую функцию Fт(х). Такие масштабы есть в справочной литературе или могут быть рассчитаны для любого известного распределения.

Равные интервалы вертикального масштаба представляют равные части меры рассеивания. Размер вертикальной шкалы указывают в числе мер рассеивания – вместе с длиной.

Общим для всех вертикальных масштабов является наличие в качестве начала отсчета меры центра группирования – уровня 0,5 для симметричных распределений и уровня 0,632 или аналогичного для несимметричных распределений. Вниз от этого уровня значения стремятся к нулю, а вверх – к единице.

Для массового применения размножаются типографским способом бланки с вероятностным масштабом – вероятностная бумага. В России вероятностные графики не прижились, а масштабы являются библиографической редкостью. В итоге многие специалисты пользуются статистическими данными, воспринимая их как детерминированные однозначные показатели. Повсеместно подменяют статистические меры, привнося грубейшие ошибки, особо опасные при оценках прочности и надежности.

Известны прикладные программы для построения вероятностных графиков. Пользование ими предполагает режим диалога, т.е. оператору никак не избежать соучастия в формировании функций распределения. Без «бумажного» графика не обойтись, прежде всего, для приобретения опыта. Вероятностную бумагу можно напечатать, используя иллюстрации из справочников. Однако, у пользователя этой бумаги проявится ее недостаток, суть которого в неизменности масштаба, для всех, самых разных выборок.

Названный недостаток устраняется, если вертикальный масштаб будет нанесен на рейсшину или любое подручное чертежное средство для изображения параллельных прямых. Это позволит изображать графики на любой бумаге и, главное, менять размер вертикальной оси наклоном линейки с масштабом. Надо лишь не забыть о метках, фиксирующих избранное положение вертикальной шкалы на бумаге. Шкалу двигают вверх и вниз, поворачивают, пока экстремальные точки будущего графика не станут вершинами квадрата со сторонами, параллельными осям.

Вертикальные масштабы для двух теоретических функций распределения приведены в приложении 2 (рис. 82). Оба масштаба были рассчитаны по программам, составленным применительно к интерполяционным задачам. Нелинейностью масштаба между соседними делениями можно пренебречь, т.е. делить их на любое число равных участков по аналогии с линейной шкалой. Методическая погрешность при этом будет пренебрежимо малой, даже недоступной расчету на ЭВМ.

Построение вероятностного графика начинают, как уже говорилось, размещением точек под горизонтальной осью и обозначением экстремальных величин хmax и хmin, задающих размер по горизонтали. Горизонтальный масштаб должен быть линейным, если отношение хminmax меньше единицы. Если хmin и хmax различаются более чем на порядок, нужен логарифмический масштаб.

Размер графика по вертикали должен обеспечить угол построений с осями, примерно, 45°.

Линейку с масштабом поворачивают так, чтобы размер соответствовал экстремальным квантилям. Если, к примеру, объем выборки n = 200 то хmin соответствует 0,005, а хmax – уровню 0,995 по вертикали. Координаты этих точек по обеим осям примерно равны.

Эмпирическая функция Fэ(х) строится при смещении линейки с масштабом параллельно горизонтальной оси, начиная с хmin и до уровня 0,5. Каждая точка из выборки добавляется к предыдущим «ступенькам» на графике 1/n; затем линейку двигают справа налево, начиная с xmax. Каждая точка убавляет от предыдущей ступеньки 1/n, начиная с уровня 1- 1/n для хmax, вплоть до уровня 0,5. Можно шкалу оставить неподвижной, а смещать лист бумаги с указанными правилами. Во всех вариантах на поле графика отмечаются деления с линейки, достаточные для считывания информации. Точки или вершины ступенек эмпирической функции Fэ(х) размещаются в окрестности диагонали квадрата, образуемого осями. Взаиморасположение осей выбирается произвольно, поскольку привычных нулей на осях здесь нет.

Логарифмический масштаб горизонтальной оси строится с помощью калькулятора или старинной логарифмической линейки, прикладываемой под углом к оси так, чтобы ее проекция уложилась между значениями 1 и 10 (0,3 и 3 или т.п.).

Следующим этапом является выбор статистической гипотезы, т.е. построение прямой Fт(х) по Fэ(х). Прямую надо проводить так, чтобы точки оказывались поочередно выше и ниже, или, по крайней мере, минимизировать число точек, которые остаются с одной стороны подряд.

 

                                             а)                                                                                               б)

Рис. 26. Построение функции Fт(х) по точкам функции Fэ(х):

а) вероятностный график признан успешным; б) вероятностный график нуждается в дополнительном анализе.

 

Если точки явно не идут по «одной половице» то это может быть следствием одной из 3 причин:

1. Вероятностный масштаб выбран неверно, его надо сменить на более корректный для решаемой задачи. Надо заменить линейку и повторить построение графика.

2. Выборка взята более чем из одного статистического ансамбля, т.е. налицо смесь. Частным случаем смеси является изъятие части ансамбля по какому-либо признаку, а в итоге – усеченная выборка. Нужен дополнительный анализ.

3. Выборка непредставительна. Желательно повторить эксперимент.

Если прямая «пронизывает» точки на поле графика, оставляя их справа и слева поочередно, то построение вероятностного графика признается успешным. Точки, оказавшиеся подряд с одной стороны, нуждаются в дополнительном анализе.

 


Дата добавления: 2019-01-14; просмотров: 324; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!