Применение критерия Колмогорова. Министерство транспорта Российской Федерации



Министерство транспорта Российской Федерации

Федеральное агентство железнодорожного транспорта

ГОУ ВПО «Дальневосточный государственный
университет путей сообщения»

 

Кафедра «Прикладная математика»

 

С.В. Коломийцева Ю.Р. Чашкин

 

Статистическая
обработка данных
на ЭВМ

 

Сборник лабораторных работ

 

Рекомендовано
методическим советом ДВГУПС
в качестве учебного пособия

 

Хабаровск

Издательство ДВГУПС

2005

УДК 519.2:004.6 (075.8)
ББК В 172я73+З973.2-018я73

   К 612

 

Рецензенты:

 

доктор технических наук, зав. кафедрой
«Прикладная математика» ДВГУПС, профессор
А.И. Кондратьев

 

Кандидат технических наук,
директор ВНИИФТИ (Дальстандарт)

Ю.И. Лыков

 

Кафедра «Высшая математика»
Хабаровского государственного технического университета
(заведующий кафедрой, профессор А.Г. Подгаев)

 

Коломийцева, С.В.

К 612     Статистическая обработка данных на ЭВМ: Сборник лабораторных работ / С.В. Коломийцева, Ю.Р. Чашкин. – Хабаровск: Изд-во ДВГУПС, 2005. – 74 с.

 

Сборник лабораторных работ соответствует ГОС ВПО направления 010500 «Прикладная математика и информатика».

Сборник содержит основные теоретические сведения математической статистики, а также задания для самостоятельных или лабораторных работ студентов по изучению методов и приемов первичной статистической обработки экспериментальных данных, содержащих случайные ошибки с помощью табличного процессора Microsoft Excel 2000 пакета Microsoft Office 2000 для операционной системы Windows.

Сборник предназначен для студентов 3 курса естественнонаучных и технических специальностей, изучающих математическую статистику, которым необходимо умение грамотно обработать результаты измерений. Он может быть использован и для других специальностей, использующих статистическую обработку данных.

Данный курс рассчитан на 7 занятий и предполагает наличие начального опыта работы с Microsoft Excel.

 

 

© ГОУ ВПО «Дальневосточный государственный
университет путей сообщения» (ДВГУПС), 2005      

ВВЕДЕНИЕ

В современном обществе к статистическим методам проявляется повышенный интерес как к одному из важнейших аналитических инструментариев в сфере поддержки процессов принятия решений. Большим шагом вперед к развитию статистической науки послужило применение экономико-математических методов и использование компьютерной техники в анализе различных явлений.

Цель данной работы – закрепление теоретических знаний студентов и приобретение ими практических навыков по статистической обработке результатов измерений начиная с простейшего построения вариационного ряда и гистограммы, идентификации закона распределения с помощью различных статистических критериев, заканчивая вопросами построения эмпирической зависимости при известном и неизвестном виде истинной зависимости и оценкой погрешности результатов. В качестве инструмента, с помощью которого студенты могут выполнять задания каждой из лабораторных работ, используется табличный процессор Microsoft Excel 2000, который входит в состав пакета программ Microsoft Office 2000 Professional для Microsoft Windows 2000.

Пакет предоставляет набор функций, характерных для систем обработки данных: анализ, графическая интерпретация, создание выборок случайных чисел, имеющих различные типы распределения и работа с ними; а также автоматизацию своих функций в записываемых макросах. Кроме того, пакет содержит ряд надстроек, позволяющих оптимизировать работу по анализу данных и принятию решений, о которых почти не упоминается в литературе [1].

Excel не является идеальным средством для статистической обработки экспериментальных данных, но он выбран, так как является наиболее распространенным в деловой сфере, универсальным программным продуктом, и поэтому нет необходимости подробно описывать интерфейс Excel и давать навыки работы с ним.

Настоящий сборник содержит краткие сведения из метрологии и математической статистики, касающиеся выполнения заданий в каждой лабораторной работе, однако это отнюдь не заменяет использование учебной и справочной литературы, список которой приведен в конце работы. Кроме того, в конце каждого раздела предлагается ответить на вопросы самоконтроля для лучшего усвоения материала.

Поскольку навыков работы с пакетом программ может быть недостаточно, в прил. 4 приведены краткие статистические таблицы, с помощью которых обучающиеся могут проверить правильность своих действий и результатов вычислений.

 

 

ЛАБОРАТОРНАЯ РАБОТА № 1
ПЕРВИЧНАЯ ОБРАБОТКА РЕЗУЛЬТАТОВ ПРЯМЫХ
МНОГОКРАТНЫХ ИЗМЕРЕНИЙ
/вычисление основных статистических параметров/

Цель работы

Освоить основные приемы статистической обработки данных многократных измерений на примере результатов математического эксперимента.

 

Задание

Используя возможности электронных таблиц Excel, получить выборку из нормального распределения. Оценить по выборке значения математического ожидания и среднеквадратического отклонения (СКО) генеральной совокупности, из которой извлечена выборка.

 

Краткая теория

Прямыми называются измерения, при которых искомое значение физической величины получают непосредственно с отчетного устройства средства измерения [2, 3]. Многократными называют измерения физической величины постоянного размера, повторенные несколько раз (не менее 4) при неизменных условиях. Задача состоит в том, чтобы найти оценку неизвестного истинного значения измеряемой физической величины. Обработка результатов многократных измерений производится методами математической статистики, где нет понятия «истинное значение», а используется понятие «математическое ожидание» как среднее значение по всей генеральной совокупности случайной величины. Однако для прямых измерений эти понятия оказываются адекватными, если ошибки измерений случайны и центрированы (имеют нулевое математическое ожидание).

Результаты измерений являются случайными величинами, то есть принимающими в зависимости от случая те или иные значения, заранее неизвестные и непредсказуемые. Каждое отдельное значение непрерывной случайной величины обладает нулевой вероятностью. Однако, нахождение возможных значений случайной величины в различных интервалах обладает различными и отличными от нуля вероятностями. Таким образом, для случайной величины можно определить закон распределения как функцию распределения случайной величины.

Функцией распределения случайной величины  (интегральной функцией распределения) называется функция , задающая вероятность того, что случайная величина  принимает значение, меньшее , т.е.

 

.                                 (1.1)

Кроме того, непрерывную случайную величину можно задать дифференциальной функцией распределения или плотностью распределения, которая позволяет дать представление о характере распределения случайной величины в небольшой окрестности некоторой точки числовой оси.

.                                        (1.2)

График дифференциальной функции распределения  называется кривой распределения. Кривая распределения, выражающая общую закономерность данного типа распределения, называется теоретической кривой распределения.

В статистике широко используются различные виды теоретических распределений, каждое из которых имеет специфику и свою область применения. Чаще всего в качестве теоретического распределения используется нормальное распределение[1], имеющее уравнение для плотности распределения

,                           (1.3)

а уравнение интегральной функции распределения –

,              (1.4)

где  – математическое ожидание случайной величины ,  – ее дисперсия, а  – среднеквадратическое отклонение.

Параметры (числовые характеристики) закона распределения обычно остаются неизвестными. По выборке могут быть найдены лишь их оценки.

При многократных измерениях за результат измерений обычно принимается среднее арифметическое (СА):

 

.                                            (1.5)

 

Иногда вместо СА используют выборочную медиану, которую при нечетном числе измерений находят по формуле:

 

,                                          (1.6)

а при четном – по формуле:

,                              (1.7)

 

причем предварительно результаты измерений  располагают в неубывающем порядке: . Такой порядок значений составляет вариационный ряд.

Реже используется выборочная мода  как значение, соответствующее максимуму гистограммы (см. лаб. работу «Построение гистограммы…»).

Все эти оценки определяются по выборке и выражаются одним числом, то есть точкой на числовой оси, и называются точечными выборочными оценками математического ожидания (истинного значения физической величины).

Важными характеристиками точечных оценок являются следующие:

· несмещенность. Оценка (например, ) параметра ( ) называется несмещенной, если ее математическое ожидание совпадает с оцениваемым параметром;

· состоятельность. Оценка называется состоятельной, если с увеличением объема выборки (число измерений) вероятность того, что оценка сходится к истинному значению, стремится к 1.

· эффективность. Оценка называется эффективной, если она обладает минимальной дисперсией по сравнению с другими оценками[2].

Чаще всего используется среднее арифметическое. Оно обладает следующими преимуществами перед другими оценками:

1) при любом законе распределения ошибок (с конечными математическим ожиданием и дисперсией) СА является несмещенной и состоятельной оценкой математического ожидания;

2) дисперсия СА в  раз меньше дисперсии отдельных результатов измерений, то есть дисперсии ошибок;

3) в случае нормального распределения ошибок измерений СА является эффективной оценкой математического ожидания;

4) в случае нормального распределения ошибок измерений СА распределено нормально, а при других распределениях ошибок – асимптотически нормально. Причем с увеличением объема выборки распределение СА быстро сходится к нормальному.

Недостатком СА является то, что оно весьма чувствительно к промахам (грубым ошибкам).

Найденное по выборке случайных величин СА , является случайной величиной. Разность между ним и неизвестным истинным значением  называется в статистике ошибкой, а в метрологии погрешностью. Она остается неизвестной и также является случайной величиной.

При неизвестной дисперсии  (и неизвестном математическом ожидании  или истинном значении , если ошибки центрированы) ее точечной несмещенной и состоятельной, а при нормальном распределении ошибок и эффективной оценкой, является выборочная оценка дисперсии:

 

.                                   (1.8)

 

Для вычисления оценки среднеквадратического отклонения по выборке обычно пользуются формулой:

 

.                           (1.9)

 

Для оценки среднеквадратического отклонения среднего арифметического  пользуемся формулой, полученной из выражения (1.9) и свойства 2 среднего арифметического:

 

.                   (1.10)

 

Более подробные теоретические сведения см. в [4,5].

В работе предлагается выполнить расчеты двумя способами: с помощью аппарата статистических функций, а также используя надстройку
Excel Пакет анализа. Последовательность установки и основы работы с Пакетом анализа смотри в прил. 1.

 

Ход работы

1. В книге лабораторных работ по математической статистике Листу1 присвойте оригинальное имя, например, «Первичный анализ данных».

2. Получите выборку из 25 случайных чисел, распределенных по нормальному закону, с математическим ожиданием равным 5, и стандартным отклонением равным 1, используя набор статистических функций Excel.

· Так как Excel не имеет функции генерации случайного числа, распределенного по нормальному закону, воспользуемся функцией СЛЧИС(), которая возвращает случайное число, имеющее равномерное распределение из интервала (0; 1). Запишем ее в ячейки столбца А (А1:А25).

· Чтобы Excel не изменял значения чисел при пересчете листа, необходимо в строке формул каждой ячейки нажать F9, тогда функция будет преобразована в возвращаемое ею значение.

· Полученные числа будут являться значениями интегральной функции стандартного нормального распределения для чисел, которые можно получить следующим образом: выбрать статистическую функцию НОРМСТОБР(А1). Эта функция возвращает обратное значение стандартного нормального распределения по известным значениям интегральной функции стандартного нормального распределения. НОРМСТОБР использует метод итераций для вычисления функции. Если задано значение интегральной функции стандартного нормального распределения, то функция НОРМСТОБР производит итерации, пока не получит результат с точностью ± 3x10^-7. Если НОРМСТОБР не сходится после 100 итераций, то функция возвращает значение ошибки #Н/Д.

· Чтобы получить нормально распределенные случайные числа, имеющие математическое ожидание равное 5, в столбце В (диапазон В1:В25) в качестве аргумента функции НОРМСТОБР укажем значение соответствующих ячеек столбца А: НОРМСТОБР(А1)+5.

3. Получите выборку с указанными параметрами математического ожидания и стандартного отклонения с помощью надстройки Excel – Анализ данных… из меню Сервис. Результат поместите в отдельные ячейки рабочего листа.

· Вызовите диалоговое окно Анализ данных. Из Инструментов анализа выберите пункт Генерация случайных чисел (рис. 1.1).

· Чтобы получить 1 столбец случайных чисел, укажите в поле Число переменных: 1. Если это число не введено, то все столбцы в выходном диапазоне будут заполнены (рис. 1.2).

· В поле Число случайных чисел: введите количество случайных значений, которое необходимо вывести для каждой переменной (для каждого столбца). Каждое случайное значение будет помещено в строке выходного диапазона. Если число случайных чисел не будет введено, все строки выходного диапазона будут заполнены (рис. 1.2).

· Укажите из выпадающего списка поля Распределение: Нормальное. Задайте параметры распределения: Среднее = 5, Стандартное отклонение = 1.

· В разделе Параметры вывода введите ссылку на левую верхнюю ячейку выходного диапазона, ниже на текущем листе. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные (рис. 1.2).

 

  Рис. 1.1. Диалоговое окно Анализ данных   Рис. 1.2. Генерация случайных чисел

 

4. Далее найдите точечные выборочные оценки математического ожидания и среднеквадратического отклонения, используя встроенные статистические функции Excel.

· Вычислите среднее арифметическое для полученных чисел – функция СРЗНАЧ(B1:B25) и медиану – функция МЕДИАНА(B1:B25), где диапазон B1:B25 содержит значения выборки, полученной по п.2. Значения этих функций будут близки к заданному нами математическому ожиданию.

· Найдите оценку дисперсии по выборке – ДИСП(B1:B25), и оценку стандартного отклонения равную квадратному корню из оценки дисперсии – СТАНДОТКЛОН(B1:B25).

· При расчете оценок дисперсии функцией ДИСП и стандартного
отклонения функцией СТАНДОТКЛОН логические значения, такие, как ИСТИНА или ЛОЖЬ, а также текст игнорируются. Сравните полученное значение оценки СКО с заданным.

5. Найдите размах выборки – интервал значений выборки, равный выражению ABS(МАКС(В1:В25)-МИН(В1:В25)), где диапазон B1:B25 содержит значения выборки, полученной по п.2.

6. Воспользуйтесь Пакетом анализа данных для вычисления основных статистических параметров выборки.

· Выполните команду Сервис-Анализ данных…В появившемся диалоговом окне среди Инструментов анализа выберите пункт Описательная статистика (рис. 1.3).

 

· В поле Входной интервал: укажите диапазон значений выборки, например диапазон B1:B25. В разделе Группирование установите переключатель в положение По столбцам, так как в нашем случае значения выборки расположены в столбце.

· Если первая строка исходного диапазона содержит названия столбцов, установите переключатель в положение Метки в первой строке. Если названия строк находятся в первом столбце входного диапазона, установите переключатель в положение Метки в первом столбце. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически (рис. 1.3).

· В разделе Параметры вывода укажите Выходной интервал: введите ссылку на левую верхнюю ячейку выходного диапазона. Этот инструмент анализа выводит два столбца сведений для каждого набора данных. Левый столбец содержит метки статистических данных; правый столбец содержит статистические данные. Состоящий их двух столбцов диапазон статистических данных будет выведен для каждого столбца или для каждой строки входного диапазона в зависимости от положения переключателя Группирование (рис. 1.3).

· Установите флажок в поле Итоговая статистика.

· Установите флажок в поле Уровень надежности, если в выходную таблицу необходимо включить строку для уровня надежности. В поле введите требуемое значение. Например, значение 95 % вычисляет уровень надежности среднего со значимостью  = 0,05 (оставить значение по умолчанию).

· Результат работы режима Описательная статистика представлен на рис. 1.4.

 

  Рис. 1.3. Описательная статистика   Рис. 1.4. Описательная статистика

 

 

Дополнительные пояснения:

Используемая в пакете Microsoft Excel терминология не вполне корректна с точки зрения математической статистики. Укажем соответствие некоторых терминов пакета и терминов математической статистики.

· Среднее (ячейка G11) – это среднее арифметическое (выборочное среднее (1.5);

· Стандартная ошибка (ячейка G12) – оценка СКО среднего арифметического (1.10). Характеризует стандартное отклонение вариантов выборочного среднего от генерального среднего. Стандартная ошибка выборки  используется для расчета предельной ошибки выборки  (показатель Уровень надежности на рис. 1.4), которая дает возможность выяснить, в каких пределах находится величина генерального среднего [1].

Предельная ошибка выборки  связана со средней ошибкой выборки  соотношением:

,

где  – коэффициент определяется в зависимости от того, с какой надежностью  нужно гарантировать результаты выборочного обследования.

При расчете коэффициента доверия  используется функция СТЬЮДРАСПОБР (см. лаб. работу «Построение гистограммы по результатам прямых многократных измерений»), в которой задается уровень значимости .

· Медиана (ячейка G13) – выборочная медиана (1.5) или (1.6);

· Значение Моды (ячейка G14) оказалось неопределенным в связи с тем, что множество наших данных не содержит одинаковых значений.
В Excel имеется функция МОДА, которая отображает наиболее часто встречающееся значение в интервале данных.

· Стандартное отклонение (ячейка G15) – оценка СКО;

· Дисперсия выборки (ячейка G16) – выборочная оценка дисперсии генеральной совокупности;

· Эксцесс (ячейка G17) – выборочная оценка эксцесса.Эксцесс характеризует так называемую «крутость», т.е. островершинность или плосковершинность распределения. Он может быть рассчитан для любых распределений, но в большинстве случаев вычисляется только для симметричных. Это объясняется тем, что за исходную принята кривая нормального распределения, относительно вершины которой и определяется выпад вверх или вниз вершины эмпирического распределения.

Точное определение эксцесса основано на расчете центрального момента 4-го порядка:

.

Одноименная функция Excel определяет значение эксцесса по выборке следующей формулой:

,

где  – объем выборки.

Если , то распределение островершинное, если  – плосковершинное.

Следует учесть, что корректное и имеющее смысл значение эксцесса можно получить только для выборок очень большого объема (>5000). Для малых выборок (»30) следует предварительно выяснить закон распределения и уже после этого при необходимости рассчитывать эксцесс.

· Асимметричность (ячейка G18) – выборочная оценка коэффициента асимметрии. Для симметричных распределений математическое ожидание, мода и медиана равны между собой. Чем больше разница между , тем больше асимметрия выборки.

Показатель асимметрии в генеральной совокупности основан на определение центрального момента 3-го порядка:

 

.

 

Функция СКОС определяет величину асимметрии по выборке следующей формулой:

,

где  – объем выборки.

· Если , то асимметрия правосторонняя, если  – асимметрия левосторонняя.

· Интервал (ячейка G19) – это размах варьирования;

· Уровень надежности (95 %) – величина, связанная с уровнем значимости .

7. Сравните значения статистических параметров выборки, полученные обоими способами.

 

Контрольные вопросы

1. Что называют прямыми измерениями?

2. Какие измерения являются многократными?

3. Что обычно принимается за результат измерения?

4. Что такое вариационный ряд?

5. Назовите основные характеристики точечных оценок.

6. Каковы преимущества среднего арифметического перед другими оценками?

7. Что является недостатком среднего арифметического?

8. Что такое дисперсия?

9. Что делать, если дисперсия неизвестна?

 

 

ЛАБОРАТОРНАЯ РАБОТА № 2
ПОСТРОЕНИЕ ГИСТОГРАММЫ ПО РЕЗУЛЬТАТАМ
ПРЯМЫХ МНОГОКРАТНЫХ ИЗМЕРЕНИЙ
/на примере результатов математического эксперимента/

Цель работы

Цензурирование выборки (исключение промахов).

Освоить основные приемы построения различных гистограмм по
результатам многократных измерений, а также элементарной проверки предположения о нормальном законе распределения.

 

Задание

Найти и исключить промахи из выборки.

Построить гистограмму частот или гистограмму статистического распределения. Проверить гипотезу о нормальном законе распределения по ее виду. По имеющейся выборке значений построить доверительный интервал для неизвестного истинного значения.

 

Краткая теория

Поскольку  (а следовательно и ) чувствительно к промахам, такой результат (промах) подлежит исключению. Таковыми могут оказаться  и . Вопрос об исключении отдельного результата решается с помощью статистических критериев. Вычислив предварительные оценки  и , можно проверить  и  по статистике для резко выделяющихся наблюдений:

,                                       (2.1)

 

или

.                              (2.2)

Вычисленные по формулам (2.1) или (2.2) значения статистики  следует сравнить с критическим (предельным для данной статистики) значением  для уровня значимости . Если вычисленное значение  превышает , результат признается промахом и отбрасывается. После исключения промаха вычисления  и  производят заново без учета отброшенного значения.

Построение гистограммы

Для построения гистограммы вариационный ряд разбивают на интервалы одинаковой, произвольной или специальным образом выбранной длины. В простейшем случае интервалы берут одинаковой длины. Вопрос о необходимом числе интервалов для построения гистограммы не имеет строгого решения. Обычно для определения числа интервалов одинаковой длины пользуются формулой Старджеса:

                              (2.3)

Число результатов отдельных
измерений в каждом интервале  называется частотой попадания в k-й интервал, а относительная частота  называется в метрологии частностью  (мы будем использовать выражение «относительная частота), здесь  – общее число измерений. Гистограммой частот будет являться график в виде прямоугольников, причем по оси абсцисс отложены границы интервалов, а по оси ординат – частоты или относительные частоты (рис. 2.1). Ширина прямоугольников равна длине интервала, а высота – соответствующей частоте или относительной частоте. На гистограмме частот сумма всех высот прямоугольников равна , а на гистограмме относительных частот – единице. Для обоих видов гистограмм все интервалы должны иметь одинаковую длину  (  называется также шагом гистограммы).

Если по оси ординат отложить величину , то такая гистограмма называется гистограммой статистического распределения, она является выборочной оценкой функции плотности вероятности . Сумма площадей всех прямоугольников на этой гистограмме равна 1. При построении такой гистограммы не обязательно сохранять постоянной длину интервалов.

По любой из этих гистограмм – частот, относительных частот (обе – только с постоянным шагом, иначе возможны значительные искажения формы гистограммы) и статистического распределения – можно составить представление о законе распределения. Удобнее всего это сделать с помощью гистограммы относительных частот. Относительная частота есть оценка вероятности попадания в k-й интервал. Теоретическую вероятность  можно вычислить по формуле:

,                   (2.4)

где  – нижняя и верхняя границы k-го интервала; ;  – значение интегральной функции стандартного нормального распределения для .

Поскольку при нормальном распределении случайная величина может принимать значения на интервале от  до , а в реальном случае интервал конечный ( , ), сумма всех вероятностей  по всем r интервалам будет меньше единицы. Проверку правильности вычислений можно осуществить следующими способами:

Ø вычислить вероятности попадания случайной величины во внешние интервалы ( , ) и ( , ) и прибавить полученные значения к сумме вероятностей по всем r интервалам (в результате должна получиться 1);

Ø вычислить вероятность попадания случайной величины в интервал ( , ) – эта вероятность должна быть равна сумме вероятностей по всем r интервалам.

Краткие технические сведения о построении различных диаграмм и графиков средствами Excel можно найти в прил. 3 «Теория диаграмм».

Доверительным называется интервал значений, который в последующих опытах накрывает неизвестное истинное значение с вероятностью равной заданной  [4, 5].

Для построения доверительного интервала для математического ожидания  (истинного значения  при центрированных ошибках) воспользуемся соотношением, называемым дробью Стьюдента, которое имеет
t-распределение:

,                                         (2.5)

Пользуясь таблицами t-распределения, можно построить доверительный интервал для истинного значения :

                       (2.6)

где – критическое значение t-распределения при уровне значимости  и числе степеней свободы (числе независимых слагаемых в (1.9) и (2.5)) .

Интервал  в метрологии называется доверительной случайной погрешностью. Доверительным интервалом по выражению (2.6) пользуются, когда ошибки измерений имеют нормальное распределение. В данной работе предлагается визуально по гистограмме проверить гипотезу о нормальности распределения случайной величины.

Полуширину доверительного интервала можно рассчитать так:

,                                           (2.7)

где значения  и  нужно определить по выборке (лаб. работа «Первичная обработка…»).

Следует при этом иметь в виду, что использование терминов «вероятность» и «доверительная вероятность» применительно к конкретному интервалу , построенному по данной выборке некорректно. Этот интервал может в действительности накрыть неизвестное истинное значение (и тогда следовало бы сказать, что вероятность равна единице), либо не накрыть его (тогда следовало бы сказать, что вероятность равна нулю). Это остается неизвестным исследователю. Однако, если  достаточно мало, можно ожидать, что скорее всего накрытие имеет место, то есть доля «накрывающих» интервалов, равная , гораздо больше, чем доля противоположных, равная ). Чтобы отразить нашу уверенность, что скорее всего построенный нами интервал относится к «накрывающим», используется термин «надежность». Надежность  численно равна доверительной вероятности:

.

 

 

Ход работы

1. В книге лабораторных работ по математической статистике Листу2 присвойте оригинальное имя, например, «Гистограмма». Либо выполняйте расчеты на том же листе, что и в предыдущей работе.

2. Выявить и исключить промахи из выборки по методике, описанной в краткой теории, либо см. [9], табл. 4.8 «Критерии исключения резко выделяющихся наблюдений».

3. Постройте гистограмму статистического распределения случайной величины. Для этого выполним несколько шагов:

· Отсортируйте выборку в порядке неубывания значений – построение вариационного ряда[3]. Для этого придется формулу в каждой ячейке заменить ее значением. Это можно сделать, нажав F9 в строке формул каждой ячейки выборки. Затем необходимо выделить диапазон тех ячеек, которые будут отсортированы и выполнить команду меню Данные-Сортиров­ка... Если появилось окно, представленное на рис. 2.2, укажите вторую опцию (см. рис. 2.2) и нажмите кнопку Сортировка…В диалоговом окне Сортировка диапазона в категории «Сортировать по» укажите нужный столбец и направление сортировки (по возрастанию).

· Вычислите оптимальное число интервалов гистограммы, воспользовавшись, например, формулой Старджеса (2.3). В Excel выражение будет иметь следующий вид: ОКРУГЛВВЕРХ(LOG(25;2)+1;0)[4]. Мы используем эту функцию, чтобы получить целое число интервалов, при этом максимальное значение выборки попадает в последний интервал.

· Вычислите длину каждого интервала h = . Здесь  либо в качестве размаха можно использовать значение показателя Интервал на рис. 1.4.

· Заданную выборку разбейте на вычисленное число интервалов длины h. Для этого к первому значению вариационного ряда прибавьте шаг h – получим первый интервал, к полученному значению снова прибавьте h – получим второй интервал и т.д. до последнего значения вариационного ряда.

· Вычислите частоты попадания значений вариационного ряда в найденные интервалы, для чего воспользуйтесь функцией Excel {=ЧАСТОТА(D2:D26; E9:E14)} как формулой массива (о работе с формулами массива можно почитать в справочной системе Excel или, например, в [15]). Здесь первый аргумент D2:D26 – диапазон значений вариационного ряда, второй аргумент E9:E14 – диапазон значений интервалов для гистограммы.

· Постройте гистограмму статистического распределения с помощью мастера диаграмм Excel. Исходными данными для гистограммы являются найденные интервалы (ось Х) и частоты попадания в них значений вариационного ряда (ось Y).

4. Выполните расчет частот и построение гистограммы с помощью надстройки Пакет анализа:

· Вызовите диалоговое окно Анализ данных (см. рис. 1.1). В категории Инструменты анализа выберите Гистограмма (рис. 2.3).

· В поле Входной интервал раздела Входные данные: укажите диапазон значений выборки $B$1:$B$25 (вариационный ряд).

· В поле Интервал карманов (интервалы гистограммы) данные вводить необязательно. В этом случае набор отрезков, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.

· Введите ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экран будет выведено сообщение в случае возможного наложения выходного диапазона на исходные данные.

· Установите флажок для автоматического создания встроенной диаграммы на листе, содержащем выходной диапазон. В результате выполнения команды будет рассчитана таблица частот и интервалов гистограммы, а также построен график по данным таблицы. Сравните полученные значения с результатами предыдущих пунктов.

5. По виду гистограммы выполните проверку предположения о нормальном законе распределения значений выборки.

6. Постройте доверительный интервал, накрывающий математическое ожидание случайной величины по значениям выборки, полученной в предыдущей работе. Примерный образец выполнения данной лабораторной работы представлен на рис. 2.4[5].

 

 

Рис. 2.4. Пример выполнения лабораторной работы

 

· Для этого, во-первых, найдите коэффициент Стьюдента для числа степеней свободы n-1 (число n вычисляется функцией СЧЁТ(В1:В25) – вычисляется количество заполненных ячеек) и выбранной доверительной вероятности 0,95 (задается произвольно). Воспользуйтесь функцией СТЬЮДРАСПОБР(0,05;СЧЁТ(B1:B25)-1). В качестве первого аргумента функции задается величина 1-0,95; , так как  (выбранное нами значение доверительной вероятности); второй аргумент – число степеней свободы . Данная функция возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы, то есть СТЬЮДРАСПОБР=p(t<X), где X – это случайная величина, соответствующая t-распределению.

· Далее вычислите полуширину доверительного интервала по формуле (2.7). В синтаксисе Excel формула примет следующий вид: D1*G4/КОРЕНЬ(СЧЁТ(B1:B25)), где D1 – значение коэффициента Стьюдента, G4 – оценка СКО, функция СЧЕТ(В1:В25) возвращает количество элементов выборки. Построим доверительный интервал для математического ожидания по формуле (2.6).

Замечание. В расчетах мы не воспользовались встроенной функцией Excel ДОВЕРИТ(0,05;F7;СЧЁТ(B1:B25)), которая возвращает доверительный интервал для среднего генеральной совокупности (математического ожидания). Здесь F7 – это стандартное отклонение, которое предполагается известным. Однако в реальном опыте, как правило, нам не известно стандартное отклонение. Мы только можем оценить его значение по выборке.

 

Контрольные вопросы

1. Что такое доверительный интервал? Как его построить средствами Excel?

2. Что такое доверительная вероятность? Надежность?

3. В каком случае результат измерения признается промахом?

4. Что такое гистограмма? Какие виды гистограмм Вы знаете?

5. Как построить гистограмму относительных частот?

6. Каковы особенности гистограммы относительных частот?

7. Как по виду гистограммы проверить предположение о нормальном законе распределения? Убедительно ли свидетельствует гистограмма о нормальности распределения значений выборки?

 

 

ЛАБОРАТОРНАЯ РАБОТА № 3
ПРОВЕРКА НОРМАЛЬНОСТИ ЗАКОНА РАСПРЕДЕЛЕНИЯ
/тремя различными методами/

Цель работы

Освоить основные методы и приемы проверки гипотезы о виде закона распределения результатов измерений.

 

Задание

Выполнить проверку гипотезы о нормальности распределения результатов математического эксперимента графическим методом (методом линеаризации интегральной функции, или методом вероятностной бумаги), с помощью модифицированного критерия Колмогорова и критерия согласия .

 

Краткая теория

При обработке экспериментальных данных и определении погрешности результатов измерений основополагающим является предположение о виде закона распределения ошибок измерений – статистическая гипотеза. Чаще всего предполагается нормальный закон распределения, что должно быть подтверждено объективными методами.

Метод линеаризации интегральной функции распределения.

Для проверки гипотезы о виде закона распределения необходимо расположить результаты измерений в неубывающем порядке – построить вариационный ряд:

.

Эмпирической функцией распределения называют функцию ,
определяемую соотношением:

 

.    (3.1)

 

Эмпирическая функция распределения обладает всеми свойствами функции распределения вероятностей и является несмещенной и состоятельной оценкой функции распределения генеральной совокупности, из которой извлечена выборка.

Поставив в соответствие каждому значению  вариационного ряды в качестве оценки функции распределения  соответствующую долю эмпирической функции распределения, равную  (3.1), приравняв ее к функции распределения и, пользуясь таблицами предполагаемого закона распределения (в данном случае – нормального, ), находят теоретические значения аргумента , соответствующие значениям, полученным в опыте для эмпирической функции . Поскольку между  и  существует линейная зависимость

                                            (3.2)

 

 

(при неизвестных  и  заменяем их выборочными точечными оценками), характер графика не изменится, если по оси ординат мы отложим значения , а соответствующие им опытные значения  отложим по оси абсцисс. Расположение точек на графике вдоль прямой линии подтверждает линейную зависимость между экспериментальными значениями измерений  и теоретическими , что свидетельствует о возможности принятия гипотезы о виде закона распределения.

Проведя на глаз прямую через точки, можно по графику приближенно найти оценки  и  значений  и . Значение абсциссы в точке пересечения ее с построенной прямой равно . Значение  можно найти из выражения (3.2). Задав любое значение , неравное нулю, по проведенной прямой находят соответствующее ему значение  и вычисляют . Если положить  = 1, тогда .

Близость графических оценок к вычисленным значения  и  (см. лабораторную работу № 1) является подтверждением правильности гипотезы о законе распределения.

О графическом методе проверки нормальности закона распределения можно прочитать также в [6, 7, 8].

Проверка гипотез, осуществляемая с помощью статистических критериев, является более объективной. Статистический критерий – это правило, по которому принимается решение по гипотезе. Для построения критерия выбирают статистику – некую функцию от результатов измерений или наблюдений, находят (или заранее знают) ее распределение и (при традиционном подходе к применению статистических критериев) задаются некоторым ее значением, вероятность превышения которого считается пренебрежимо малой. Если наблюденное в опыте значение выбранной статистики оказывается меньше выбранного предельного, то гипотеза принимается, иначе она отвергается. Принятое предельное значение статистики называется критическим.

Уровнем значимости  критерия является вероятность попадания статистики критерия в критическую область (когда гипотеза верна, но критерий ее отвергает, поэтому вероятность  называется также вероятностью ошибки 1-го рода), здесь  – вероятность попадания в допустимую область (в интервал вероятности). Значение  считается таким, когда шансы принять неверную гипотезу или отвергнуть правильную гипотезу, приблизительно равны.

Применение критерия Колмогорова

График функции  представляет собой ступенчатую фигуру со скачками, равными или кратными величине  в точках, определяемых членами вариационного ряда. Как оценка  функция  случайна. Допустимые (с задаваемой вероятностью) отклонения ее от  даются критерием Колмогорова, использующего статистику в виде

,                   (3.3)

т.е. для любых конечных значений х статистика  представляет собой самое большое по модулю отклонение  от .

Для практических вычислений [9] удобнее использовать следующие формулы:

, , .

 

Критерий Колмогорова имеет вид [9]:

,                                           (3.4)

где  – верхний -предел статистики при объеме выборки .

Критерий Колмогорова применим при любом законе распределения (то есть, он свободен от распределения), если  – непрерывная функция, причем  не зависит от выборки, т. е. не зависит от ; здесь xi – элементы вариационного ряда (упорядоченной выборки).

Если же  связана с выборкой (содержит выборочные оценки математического ожидания  и дисперсии , как при проверке гипотезы о нормальном распределении – обозначим эту функцию распределения ), то критерием Колмогорова пользоваться нельзя [10], т.к. границы в правой части (3.4) оказываются заметно меньше, причем это уменьшение оказывается разным при разных законах распределения. Экспериментальные исследования границ ( -пределов статистики ) выполнены Стефенсом (см. [10, 11]). Для нормального распределения границы Стефенса  хорошо аппроксимируются для  и  выражением [5]

,                                   (3.5)

 

где значения  берутся из таблиц статистики Колмогорова [9] или вычисляются по формуле

,                                     (3.6)

 

где  (для ) или  (для ).

Если в критерии Колмогорова (3.4) использовать новые границы (3.5), то критерий становится модифицированным критерием Колмогорова. Модифицированный критерий Колмогорова оказывается зависим от распределения, он становится параметрическим, разным для разных законов распределения. Однако важнейшее [11] его свойство сохраняется – он работает с негруппированными данными и полностью использует всю информацию, содержащуюся в выборке.

Применение критерия согласия

При объеме выборки  для проверки гипотезы о виде распределения применяют критерий согласия  (критерий Пирсона), широко представленный в литературе [2,10,11] и широко распространенный на практике. Он применяется для группированных данных (как при построении гистограммы), когда в каждом интервале находится не менее 5 измерений. Если число измерений в интервале оказывается меньше 5, этот интервал объединяют с соседним[6].

Критерий согласия  имеет вид

,                            (3.7)

где  – число данных в k-м интервале (k = 1, 2, …, r);  – теоретическая вероятность попадания случайной величины х в k-й интервал, равная при нормальном законе

,        (3.8)

 

где  – нижняя, а  – верхняя границы интервала;  – теоретическая интегральная функция нормированного нормального распределения;  – объем выборки; r – число интервалов;  – число степеней свободы; j – число параметров закона распределения, определяемых по выборке.

В случае нормального закона распределения j = 2, так как по выборке оцениваются два параметра распределения – математическое ожидание и дисперсия.

Вычисленное по выражению (3.7) значение  сравнивается с табличным для распределения  при выбранном уровне значимости . Если , то гипотеза о виде распределения принимается, в противном случае она отвергается и строится новая гипотеза – предлагается другой закон.

На практике критерием (3.7) пользуются при объеме выборки  ³ (40–50), при этом необходимо помнить, что в этом случае критерий (3.7) обладает повышенной вероятностью ошибки 1-го рода (признать неверной проверяемую гипотезу, когда она верна). Если выборка имеет малый объем и выводы о виде закона распределения по критериям Колмогорова и Пирсона окажутся противоречащими друг другу, предпочтение должно быть отдано критерию Колмогорова.

 

Ход работы


Дата добавления: 2018-02-15; просмотров: 443; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!