Элементы математической статистики. Описательная статистика. Операции агрегирования данных.



Статистика – процесс сбора и первичной обработки числовой структурированной информации о некоторых объектах или процессах. Также: Статистика или статистическая информация – числовая и структурированная информация о некоторых объектах или процессах.

Математическая статистика — это наука, изучающая методы вскрытия закономерностей, свойственных большим совокупностям однородных объектов или событий, на основании их выборочного обследования (либо большим массивам данных, полученных в результате наблюдения за одним и тем же объектом на протяжении достаточно протяженного интервала времени). математическая статистика является связующим звеном между теорией вероятностей и явлениями реального мира, поскольку позволяет сформулировать оценки вероятности тех или иных событий на основе анализа статистических данных.

Предмет МС – изучение СВ (или сл. событий, процессов) по результатам наблюдений.

Генеральная и выборочная совокупности

Выборочной совокупностью, или просто выборкой, называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность объектов, из которых проводится выборка.

Вариационный ряд – результат выборки, расположенный в порядке возрастания значений (а не в порядке их получения).

Полигон распределения(статистического ряда) (дословно — многоугольник распределения) строится в прямоугольной системе координат. Величина признака откладывается на оси абсцисс, частоты или относительные частоты — по оси ординат. Чаще всего полигоны применяются для изображения дискретных вариационных рядов, но их можно применять также для интервальных рядов. В этом случае на оси абсцисс откладываются точки, соответствующие серединам данных интервалов.

Гистограмма распределения строится аналогично полигону в прямоугольной системе координат. В отличие от полигона при построении гистограммы на оси абсцисс выбирают не точки, а отрезки, изображающие интервал, а вместо ординат, соответствующих частотам или относительным частотам отдельных вариант, строят прямоугольники с высотой, пропорциональной частотам или относительным частотам интервала. В случае интервалов различной длины гистограмма распределения строится, не по частотам или относительным частотам, а по плотности интервалов (абсолютной или относительной). При этом общая площадь гистограммы равна численности совокупности, если построение проводится по абсолютной плотности, или единице, если гистограмма построена по относительной плотности.

Кумулятивная кривая (кривая сумм — кумулята) получается при изображении вариационного ряда с накопленными частотами или относительными частотами в прямоугольной системе координат, Накопленная частота определенной варианты получается суммированием всех частот вариант, предшествующих данной, с частотой этой варианты. При построении кумуляты дискретного признака по оси абсцисс откладывают значения признака (варианты), Ординатами служат вертикальные отрезки, длина которых пропорциональна накопленной частоте или относительной частоте той или иной варианты. Соединением вершин ординат прямыми линиями получаем ломаную (кривую) кумуляту.

 

Описательная статистика — один из разделов статистической науки, в рамках которого изучаются методы описания и представления основных свойств данных. Позволяет обобщать первичные результаты, полученные при наблюдении или в эксперименте. Применение описательной статистики включает следующие этапы:

1. Сбор данных

2. Категоризация данных

3. Обобщение данных

4. Представление данных

В рамках описательной статистики применяются следующие простейшие техники:

§ Графическое представление данных.

§ Табличное представление данных.

§ Использование обобщающих статистик, таких, как математическое ожидание, медиана, дисперсия и т.д.

Обобщающие статистики используются для решения двух основных задач:

§ Показать общее в характере совокупности данных.

§ Показать, в чём и насколько данные различны.

 

Операции агрегирования данных.

Агрегирование данных (data aggregation): процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и изучения здоровья населения.

под агрегированиемподразумевают методику создания нового класса из уже существующих классов путём их включения.

Операции агрегирования. Статистическая операция вычисляет одно значение по коллекции значений. Например, статистической обработкой является вычисление средней дневной температуры с использованием значений дневной температуры за месяц.

стандартные запросы, которые выполняют операции агрегирования:

Aggregate - Выполняет пользовательскую операцию агрегирования со значениями коллекции.

Метод Average - Вычисляет среднее значение коллекции значений.

Счетчик - Подсчитывает число элементов в коллекции (при необходимости только те элементы, которые удовлетворяют функции предиката).

LongCount - Подсчитывает число элементов в большой коллекции (при необходимости только те элементы, которые удовлетворяют функции предиката).

Максимум - Определяет максимальное значение в коллекции.

Минимум - Определяет минимальное значение в коллекции.

Sum - Вычисляет сумму значений в коллекции.

 


Дата добавления: 2018-04-15; просмотров: 878; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!