Проверка статистических гипотез



Министерство образования и науки Российской Федерации

 


Федеральное государственное автономное
образовательное учреждениевысшего образования

Санкт-Петербургский политехнический университетПетра Великого

 

 

Н.В. Павлов

 

 

Практические занятия
по статистике

 

Учебное пособие

 

 

Санкт-Петербург

Издательство Политехнического университета

2017

Содержание

 

Введение. 3

1. Настройка и Сводка. 4

2. Исследования выборки. 6

3. Проверка статистических гипотез. 9

4. Корреляционно-регрессионный анализ. 12

4.1. Парная регресия. 12

4.2. Множественная регрессия. 14

5. Прогнозирование. 16

 

 

Введение

Многие боятся статистики.

Настройкa

1.Открыть Statistica 7.

2.Tools à OptionsàOutput manageràPlace all results in àWorkbookà Workbook containing the data file.

3.ToolsàOptionsàGeneralàAutosaveà3 min.

4.ToolsàOptionsàGeneralàAutosaveàRecovery path.

5.Создать файл, задать 3 столбца, 14 строк.

6.Сохранить его в свою папку.

7.Задатьвыводвотчет: FileàOutputmanagerà Also send to report window à Single report.

8.Variable spec… àЗадать имена.

9.Убрать столбец Правой кнопкой.

Убирать надо по одному, иначе будет сбой!

Сводка

10.Скопировать данныепо винам, проверить.

11.Построить график.

11.1. МенюàGraphs à Scatterplots.

11.2. Задать переменные

11.3. Определить, что будет X, что будет Y.

11.4. Нажать OK.

11.5. Сохранить график (отчет или рисунком в Word).

12.Скопировать данные по магазинам.

13.Самостоятельно построить график.

14.Проведите групповой анализ данных.

14.1. Определите количество интервалов. Их три или

                k=1+int(3,322*lg(n)) = 1+int(log2(n) .

14.2. Найдите границы интервалов

14.3. Определите параметры поблочно: все.

14.4. Результаты группировки выведите в отчет.

15.Скопировать в новую таблицу и построить scatterplot. Что видно?

16.Исследовать реальную зависимость. Возможные источники данных:

· Показатели стран http://svspb.net/sverige/statistika-stran-mira.php(Рус).

· Уровень жизни http://kakdobratsyado.ru/rejting-stran-mira-po-urovnyu-zhizni-naseleniya/ (много)(Рус).

· Продолжительность жизни http://www.statdata.ru/prodolzhitelnost-zhizni-v-stranah-mira(Рус).

· Много данных, но старовато http://mostinfo.su/665-statisticheskie-dannye-stran-mira-po-dannym-vsemirnogo-banka.html(Рус).

· Средняя зарплата http://investorschool.ru/srednyaya-zarplata-po-stranam-mira-2016(Рус).

· Много до 2013 http://data.cemi.rssi.ru/isepweb/socpokco.htm(Рус).

· Внешний долг http://total-rating.ru/1913-vneshniy-dolg-stran-mira-za-2016-god.html(Рус).

· Много http://total-rating.ru/1889-ekonomicheskie-sociologicheskie-geograficheskie-dannye-stran-mira-2016.html(Рус).

· Индекс процветания http://gtmarket.ru/ratings/legatum-prosperity-index/info(Рус).

· Рейтинги стран и регионов http://gtmarket.ru/research/countries-ranking(Рус).

· Регионы России http://www.gks.ru/bgd/regl/b16_14p/Main.htm(Рус).

· Демография http://www.indexmundi.com/g/r.aspx?t=0&v=24&l=en(Англ).

· Кое-что https://data.worldbank.org/(Англ).

· Вообще все http://www.nationmaster.com/(Англ).

· По спб, но не все http://www.gks.ru/dbscripts/munst/munst40/DBInet.cgi

17.Порядок работы.

17.1. Определить количество интервалов по вышеприведенной формуле.

17.2. Определить ширину интервала, разделив размах на количество интервалов. Размах определяется ка разница между максимальным и минимальным значениями.

17.3. Определить границы интервалов, прибавляя длину интервала к минимальному значению

17.4. Определить количество элементов, попавших в каждый интервал. Значения на границе относятся к следующему интервалу.

17.5. Построить график зависимости количества интервалов от номера интервала.

17.6. Описать полученный график: какой интервал содержит наибольшее количество значений; каковы границы этого интервала; симметричен ли график.

17.7. Произвести группировку в системе Statistica.

 

18.Содержание отчета.

18.1. График по таблице 1

18.2. Расчет количества и размера интервалов для таблицы 2.

18.3. Результаты группировки (табличные и графические) по таблице 2.

18.4. Таблица реальных данных (в отчете фрагмент, отдельным файлом – полная).

18.5. Описание порядка группировки

18.6. Результаты группировки.

Исследование выборки

1.Взять массив больших данных из работы 1. Открыть его в программе.Исследуемая переменная должна быть абсолютной.

2.Определить объем выборки.

3.Рассчитать требуемую абсолютную точность. Она должна быть равна ±10% от размаха

4.Зафиксировать достоверность результата, равную 95%.

5.Определить сигму выборочной средней. Указать, что такое сигма. 10% от размаха соответствует 2-м сигмам выборочной средней.

6.Рассчитать сигму генеральной совокупности Размах приближенно равен 6 сигмам генеральной совокупности.

7.Определить, во сколько раз сигма генеральной совокупности больше сигмы выборки.

8.Определяем число измерений: квадрат этого значения.

Для расчетов удобно использовать таблицу1 и производить расчеты с помощью Excel.

Таблица 1Таблица для расчетов

Наименование переменной

№ стр

Формула расчета

Примечание

Точность

1

0,5

Задается заказчиком исследования как абсолютное отклонение от среднего значения

Достоверность

2

0,95

Задается заказчиком исследования. В работе фиксировано

Мин

3

Минимум в столбце данных

Можно также оценить путем рассуждений

Макс

4

Максимум в столбце данных

Среднее

5

Среднее значение в столбце данных

Для контроля. Это то, что требуется определить по выборке

Размах

6

=(стр 4)-(стр 3)

Оценка для шести сигм. Считается, что практически все значения лежат внутри

Сигма ГС

7

=(стр 6)/6

Точность в сигмах выборочной средней, t

8

2

Определяется по таблице нормального распределения для 95%

Сигма выборочных средних

9

(стр 1)/(стр 8)

 

Отношение сигм

10

(стр 7)/(стр 9)

 

Число элементов выборки

11

Целое ((стр 10)*(стр 10))

 

 

9.Подберите такие значения точности, чтобы размер выборки был бы меньше размера генеральной совокупности.

10.Дополнительно. По исходным данным произведите расчеты, учитывая малые размеры генеральной совокупности по формуле

                  

Сравните получившиеся результаты. Выберите минимальное значение из двух оценок.

11.Произведите выборку из исходного массива данных.

11.1. Data à Subset/Random sampling à<Выбратьпеременную>àВкладкаSimple SamplingàSimple random sampling.

11.2. ВкладкаOptions àUse Diehard-certified random number generator (note: this algorithm is slower) à Calculate based on approximate N.

11.3. ВкладкаSimpleSamplingà<задатьчислоэлементоввыборки>à With replacement à OK. Появится новое окно с выборкой.

11.4. Добавить оба листа в новую рабочую книгу. Addtoworkbook.

12.Сделать всего 6 выборок аналогично п. 11.

13.Перенести все выборки в общий рабочий лист, добавив столбцы. Результат – таблицас 6 короткими столбцами = выборками.

14.Удалить лишние листы. Остается: исходная таблица и таблица выборок.

15.Провести анализ полученных результатов. StatisticsàBasicstatistics/Tablesàt-test. SinglesampleàTestallmeansagainstà<введитесреднеезначениегенеральнойсовокупности>àSummaryt-tests.

Укажите, какие выборки дали достоверный результат.

16.Из таблицы возьмите среднее значение (Means), стандартную ошибку выборки (SE). Запишите результат для каждой выборки в формате:

<Среднее>± 2*<Стандартная ошибка> с достоверностью 95%.

17.Дополнительно. Постройте диаграммы «ящик с усами» разных модификаций (кнопка Box&Whiskerplot), объясните результаты. SD – сигма выборки, SE– сигма выборочных средних.

18.Содержание отчета:

18.1. Исходные данные (возможно, фрагмент, но должен быть также файл с полными данными).

18.2. Параметры исследования: точность, достоверность.

18.3. Порядок определения размера выборки.

18.4. Таблица всех выборок

18.5. Результаты оценки всех выборок (таблица из Statistica).

18.6. Результаты оценки среднего значения по всем выборкам.

18.7. Диаграммы «ящик с усами» и их интерпретация.

Проверка статистических гипотез

Одномерный анализ

Задача.Разработан новый продукт, выпускаемый в трех видах упаковки: маленькой, средней и большой.

Прошлый опыт производителя говорит о том, что обычно на одну проданную маленькую упаковку приходится четыре средних и три больших (нуль-гипотеза).

Требуется проверить справедливость этой гипотезы.

Имеются результаты продаж: 120 маленьких упаковок, 550 средних и 330 больших; всего – 1000.

1.Создайте таблицувида таблицы 2. Как видно из рисунка, первая переменная содержит ожидаемые данные, а вторая – измеренные.

Таблица 2 – Данные для анализа

2.ВыберитеStatistics à Nonparametrics à Observed versus expected X2.

3.Задайте переменные: наблюдаемую (observed) и ожидаемую(expected).

4.Нажмите OK. Результат будет представлен в следующей таблице (таблица 3).

Таблица 3.

Первые два столбца повторяют таблицу исходных данных, в третьем столбце содержится их разность, последний служит для вычисления критерия хи квадрат. Можно отметить, что если измеренные значения точно совпадают с наблюдаемыми, критерий хи квадрат будет равен нулю. В нижней клетке последнего столбца дано значение критерия хи квадрат для данной задачи.

5.Сделайте вывод по полученным результатам. В верхней части еще раз указано значение критерия хи квадрат, дано количество степеней свободы для данной задачи, а также значение р – вероятности того, что гипотеза о совпадении измеренных и ожидаемых значений верна. Видно, что она меньше 0,05, поэтому гипотеза отвергается в пользу гипотезы о том, что исходное предположение о соотношении 1:4:3 неверно.

6.Проведите аналогичный анализ для следующего примера: требуется определить, зависит ли процент первичных пациентов с кариесом от месяца рождения. Данные взяты из http://ms-intern.livejournal.com/5551.html. Количество больных по месяцам:

                    6, 4, 2, 1, 1, 3, 6, 6, 0, 1, 5, 4.

Рисунок 1 – количество первичных пациентов с кариесом по месяцам рождения

7.Задача: если среднее количество посетителей магазина меньше 100 человек в день, то требуется принять меры по его увеличению. В противном случае ничего предпринимать не надо. Требуется проверить гипотезу о том, что количество посетителей не больше 100 человек в день.

Наблюдение проводилось в течение 10 дней, получены следующие данные:

        94, 100, 105, 106, 106, 106, 106, 107, 112, 118.

Метод: t-тест. Описание – в п. 8.

Многомерный анализ

8.Исследователь хочет узнать, есть ли разница в уровнях успеваемости студентов разных специальностей по дисциплине статистика. Для этого он выбрал по 50 студентов разных специальностей и взял их оценки. Они находятся в файле Excel. Требуется поверить, различаются ли среднее значения оценок в группах.

8.1. Скопируйте данные в Statistica.

8.2. Выберите Statistica à Basic statistics/tables à t-test, independent, by variables à OK.

Для простоты делается допущение, что дисперсии двух генеральных совокупностей равны. Данное допущение должно обосновываться. Учтет их различия усложняет анализ.

8.3. Variables à<Выберите переменные>.

8.4. Нажмите ОК, затем – Summary.Отобразится таблица

Из нее видно, что различие между средними значениями составляет 0,76 стандартных отклонений, что обеспечивает вероятность нуль-гипотезы: «различий в средних значениях нет», равную 0,44. Это не позволяет ее отвергнуть. Поэтому делается вывод о том, что средние значения одинаковы.

Исследователь хочет узнать, как влияет продолжительность лекции на успеваемость студентов. Допустим, он избрал следующий путь: из 200 студентов случайно выбрал 50 человек и в течение месяца наблюдал за их успеваемостью. Далее он увеличил продолжительность лекций на 10 минут и в течение следующего месяца смотрел на успеваемость все тех же 50 студентов. Потом он сравнил результаты каждого студента до и после увеличения продолжительности лекции. Выдвигаемая содержательная гипотеза: продолжительность лекции влияет на успеваемость студента. Отличие от предыдущего случая состоит в том, что здесь выборки зависимы: более правильно узнать разницу в оценках каждого отдельно взятого студента, а затем определить среднюю разницу среди всех студентов.

8.5. Скопируйте данные в Statictica.

8.6. Выберите Statistica à Basic statistics/tables à t-test, dependentsamplesà OK.

8.7. Variables à<Выберите переменные>.

8.8. Нажмите ОК, затем – Summary. Отобразится таблица

Интерпретация результатов аналогична.

Непараметрические методы

Часто возникает необходимость статистических процедур, позволяющих обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых мало что или вообще ничего не известно. Непараметрические методы разработаны для тех ситуаций, когда исследователь ничего не знает о параметрах исследуемой генеральной совокупности: среднего значения, стандартного отклонения. Отсюда и происходит название данной группы методов.

9.Выберите 10 однотипных объектов, например, певцов, актеров, марки автомобилей, футбольные команды, учебные курсы, музеи, страны и т.п.

10.Каждый студент должен проранжировать их, расставив места от 1 до 10.

Объект исследования Оценка
Певцы По личным предпочтениям
Актеры По личным предпочтениям
Марки автомобилей По личным предпочтениям
Футбольные команды По силе игры
Учебные курсы По сложности
  По интересности
  По полезности для будущей работы
Музеи По интересности
Страны По предпочтительности турпоездки в них

11.Введите данные в пакет Statistica. Столбцы должны соответствовать респондентам, строки – элементам исследования.

12.Оцените согласованностьответов. ДляэтоговыберитеStatisticsàNonparametricsàCorrelations (Spearman, Kendalltau, gamma) àOKàSpearman’srankR. В окне выбора переменных выберите переменные, соответствующие ответам всех опрошенных.

13.Будет выведена таблица вида

Она аналогична корреляционной матрице из предыдущего примера.Но в данном случае оценивается теснота связи между двумя наборами данных, которые представляют собой ранжирования.

Отмеченные цветом значения показывают, что гипотеза об отсутствии связи между переменнымиотвергается.

14.В отчете перечислите ответы, которые можно считать согласованными.

15.Проверьте согласованность всех ответов в целом. Для этого используется коэффициент конкордации (согласия).


Дата добавления: 2018-04-04; просмотров: 738; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!