Задания для самостоятельной работы

R - studio . Занятие 4

Пакеты. Встроенные наборы данных

Пакеты содержат функции, документацию о том, как их использовать и данные, на которых можно испробовать работу функций. Пакеты нужно установить и присоединить к своей текущей сессии.

Для установки пакета нужно выбрать Tools- Install Packages и выбрать пакет.

Вместо этого можно напечатать

install.packages(“packagename”)

в командной строке. packagename здесь и далее нужно заменить на название нужного пакета.

После скачивания пакета необходимо присоединить его к текущей ссессии (активировать) с помощью команды

Library ( packagename )

Обязательно!!!! Иначе пакет работать не будет!!!!

Пакеты могут содержать наборы данных.

Пакет datasets содержит данные, загружаемые по умолчанию. Чтобы отобразить на экране их список. используется функция data() без аргументов.

Чтобы подгрузить данные из других пакетов используется команда

data (Название данных, package=”packagename”)

Если пакет присоеденен, то данные из этого пакета становятся доступны пользователю.

Чтобы увидеть список наоборов данных в пакете используется команда

data (package=”packagename”)

Задание1.

Установите и активируйте пакеты psych (описательные статистики), dplyr (обработка данных), ggplot 2 (построение графиков).

Загрузим встроенный набор данных cars

d =  cars

d

glimpse (d) # посмотрим на эти данные

help(cars) # почитать описание этих данных

head(d) # посмотреть на начало таблички

tail(d) # посмотреть на конец таблички

describe(d) # посмотреть описательные статистики

ncol (d)# число стобцов

nrow (d) # число строк

str(d) # структура набора данных

 

Работа с данными. Преобразование данных

Для редактирования данных в отдельном окне используется команда edit(…) с указанием на название объекта (набора данных, таблицы, матрицы) подлежащего редактированию.

 

f = edit(cars)

f

Задание 2.

 

1.Перейдем к новым единицам измерения переменной speed (от миль в час км/час ). В одной миле примерно 1,67 км/час. Переменной dist (от футов к метрам). Один фут = 0,3м.

d2 = mutate(d, speed=1.67 *speed, dist=0.3*dist, ratio=dist/speed)

glimpse(d2)

2.Выберем нужные нам переменные из таблицы:

d3 = select(d2,speed,ratio)

d3

d4 = d[2,] #выбрать вторую строку таблицы cars

d4

d5 = d[1:10,]# выбрать первые 10 строк таблицы cars

d5

d6 = d[ ,1]# выбрать первый столбец таблицы cars

d$dist = NULL #удалить столбец dist в таблице cars

3.Выбор элементов таблицы, удовлетворяющих условию: t = d$speed[d$speed>10]

или s = d$speed[d$speed>10&d$speed<50].

4.Выбор части таблицы, соответствующей заданному условию по одной переменной

t = subset(d2, dist<5)

 

Описательные статистики

3.1.Среднее

i. Самостоятельно mean1<-sum(d$speed)/length(d$speed)

ii. Командой mean(d$speed)

3.2.Дисперсия

i. Командой var(d$speed)

3.3.Стандартное отклонение

i. Командой sd (d$speed)

S ummary (d)

D escribe (d)

3.6. describe(cars,fast=T)

3.7.Ковариация

i. Командой cov(cars$speed, cars$dist)

3.8.Корреляция

i. командой cor(cars$speed, cars$dist)

 

 

Тестирование гипотез

i. Гипотеза о равенстве среднего конкретному значению

t.test (d$speed, mu = …)

ii. t.test (d$speed, mu = …, alternative = “less”)

iii. t.test (d$speed, mu = …, alternative = “greater”)

Построение графиков

1.Гистограмма (каждая переменная отдельно)

а) qplot(data=d, dist) #график для себя

б) qplot(data=d, dist, xlab=”Длина тормозного пути (м)”, main = “Данные 1920-х годов”) # красивый график

 

2. Поле корреляции (2 переменные вместе)

а) qplot(data=d, speed,dist)

б) qplot(cars$speed,cars$dist, col="red", size=5)

в) plot(cars$speed,cars$dist)

г) plot(cars$speed, cars$dist, xlab = "Скорость", ylab =" Длина тормозного пути, м " , main ="Speed & dist", pch = 22) ;

Загрузка данных в R .

A ) создание таблицы

Таблицу с данными можно создать самостоятельно (команда data.frame)

score = c(4,5,3) ;

female = c(T,T,F);

names = c(“Sasha”, “Jenya”,”Kolya”);

df = data.frame(Name=names, Exam=score, Female=female)

df

Задание для самостоятельной работы:

1.Создать в R таблицу

Rost_m Ves_m
165 70
170 70
185 95
189 100
186 110
175 75
170 65
170 80
190 90
178 90

 

В) Загрузка данных из файлов (Задание для самостоятельной работы)

Создадим рабочую папку (название папки на англ. языке)

Session-Set working directory- Choose directory

Создать в ней файл Excel с таблицей из п.А

Сохранить файл в формате txt (с разделителями табуляции)

Выгрузить файл в R

f = read.csv("nazvanie faila.txt", sep = "\t", dec = ".", header = TRUE) 

Посмотреть, что получилось

С) Выгрузка данных из Excel

1 способ через кнопку Import dataset ~ From Excel ~ выбираем свой файл (при этом пакет readexcel устанавливается автоматически)

2 способ Устанавливаем пакет readxl

library(readxl)

       ves = read_excel("Nazvanie faila English.xlsx")

       ves

 

Задания для самостоятельной работы

1.Выведите на экран несколько первых строк встроенной таблицы «swiss». Выведите на экран структуру этой таблицы. Вызовите документацию для получения дополнительной информации об этой таблице.

2. Создайте новую таблицу, состоящую из первых четырех строк таблицы «swiss». Назовите вновь созданную таблицу swiss4. Выведите на экран свою таблицу.

3. Используя названия столбцов найти среднюю фертильность для четырех регионов в вашей таблице .

4. Создайте новую таблицу (swiss_draftees) из таблицы swiss, используя только столбцы Examination и Education. Выведите на экран несколько первых строк swiss_draftees.

5. Создайте новую таблицу (lower_mortality), включающую только регионы с детской смертностью ниже 20%. Выведите на экран новую таблицу.

6. Используя функцию subset(), выберите только регионы с долей католиков ниже 10%.

7.Создайте новую переменную равную Education+2

8. Постройте гистограмму для переменной Education

9. Постройте поле корреляции для переменных Catholic и Education.

10. По данным из п. 6 А получить описательную статистику для роста мужчин. Построить гистограммы для роста и веса мужчин. Рассчитать ковариации и корреляцию между ростом и весом мужчин. Протестировать гипотезу о равенстве среднего роста мужчины 186 см. Построить диаграмму рассеивания для характеристик мужчин (ось х – рост, ось y- вес), сделать подписи осей.

11. Добавить в таблицу данные о росте и весе женщин. Назвать полученный набор данных f_1. Протестировать гипотезу о равенстве среднего роста мужчин среднему росту женщин. (t.test (f$Rost_m, mu = mean(f$Rost_w)).

Rost_w Ves_w
165 68
182 60
180 95.1
160 100.8
178 110.3
150 75.0
165 65.3
170 80.5
180 90.0
155 90.6

 

 

 

 


Дата добавления: 2022-01-22; просмотров: 49; Мы поможем в написании вашей работы!

Поделиться с друзьями:




Мы поможем в написании ваших работ!