Выбор методов статистической обработки результатов



Модуль 4. Информационные технологии в системе психолого-педагогического мониторинга детей и подростков

Тема 10 Компьютерный анализ данных в психологии и педагогике

Современные табличные процессоры. Выбор методов статистической обработки результатов. Количественная обработка статистических данных в MS Excel

Современные табличные процессоры.

На современном этапе развития технологий проведения исследования»» сложно представить себе исследователя, оперирующего логарифмической линейкой или вручную подсчитывающего различные показатели, характеризующие результаты исследования. Компьютерные технологии во многом оптимизировали проведение этапа математической обработки данных, предоставляя исследователям максимум средств для моделирования изучаемого феномена.

Наибольшую популярность в среде исследователей приобрели программы Excel, SPSS и Statistica. Они предоставляют большие возможности для самого разнообразного анализа, описания и моделирования данных, просчета статистических критериев, построения графиков и гистограмм, презентации полученных результатов.

Применение статистических методов играет существенную роль при проведении исследования в области педагогики и психологии, поскольку дает исследователю возможность:

• емко, компактно и информативно описывать результаты проведенного исследования;

• устанавливать степень достоверности сходства и различия исследуемых объектов на основании результатов измерений их показателей;

• анализировать наличие или отсутствие структурных связей между различными показателями (явлениями);

• количественно и качественно описывать эти структуры;

• выявлять наиболее информативные показатели;

• классифицировать изучаемые объекты;

• создавать вероятностные модели изучаемых явлений и прогнозировать значения их показателей и характеристик и др.

Остановимся кратко на характеристиках современных табличных процессоров.

• электронные таблицы, включающие обновляемые связи между ячейками данных, что обеспечивает автоматический пересчет данных в ячейках, связанных формульными отношениями с данными других ячеек;

• ячейки электронной таблицы, содержащие данные трех типов: текстовые, числовые и даты. Помимо этого, ячейки могут содержать формулы, в ходе вычисления которых будут представлены числовые результаты формул;

табличный процессор — программа для управления данными, представленными в форме электронных таблиц. Основное назначение табличного процессора — автоматизация ввода, редактирования и представления данных, а также выполнение вычислительных операций и анализ данных.

Бурное развитие информационных технологий способствовало развитию компьютерных сред, обеспечивающих работу с числовыми данными. Особенно эффективным оказалось использование электронных таблиц или табличных процессоров, позволивших автоматизировать обработку числовых данных и их сводное представление. Эволюция развития табличных процессоров связана с такими пакетами прикладных программ, как VisiCalc, Super Culc, Lotus 1-2-3, Quattro Pro, OpenOffice Calc, MS Excel. Табличные процессоры существенно облегчили работу с числовыми данными, сократили время на их обработку, предоставили новые инструменты визуализации числовых данных [1]. Среди табличных процессоров наибольшую популярность приобрел MS Excel, входящий в состав MS Office. К числу достоинств данного прикладного продукта Р. Н. Вадзинский относит [2]:

• относительную простоту освоения и практического использования (по сравнению с пакетами статистических программ);

• значительное число встроенных статистических функций;

• наличие надстройки Пакет анализа, содержащей процедуры для решения сложных задач статистического анализа;

• наличие надстройки Поиск решения, процедуры Подбор параметра и большого числа встроенных функций, формально не относящихся к статистическим, однако позволяющих решать сложные вероятностные и статистические задачи;

• возможность создания пользователем собственных программных модулей для анализа данных на языке Visual Basic for Applications (VBA);

• наглядность статистического анализа данных, выполненного в табличной форме;

Практически все табличные процессоры имеют интерфейс, подчиненный логике эргономичного использования данного типа прикладных программ. Пользователю представлены сведения как о самом рабочем файле, так и о его отдельных элементах. Условно можно обозначить следующую последовательность элементов рабочего окна табличного процессора.

1. Строка заголовка, включающая название файла и программы, в которой открыт файл.

2. Ленты команд (строки меню).

3. Строка ввода данных, включающая значок fx, позволяющий вызвать мастер функций.

4. Пространство рабочего листа, представляющее собой собственно электронную таблицу.

5. Линейка рабочих листов (рабочих файлов).

6. Строка сообщений.

Основные элементы табличного документа Excel :

• рабочая книга, которая представляет собой многостраничный документ, состоящий из рабочих листов (по умолчанию три рабочих листа). Имя рабочей книги обозначено в строке заголовка окна;

• рабочий лист, который представляет собой заготовку таблицы, разграфленную на строки и столбцы. Единичным элементом рабочего листа является ячейка, образованная пересечением строки и столбца. Имя рабочего листа отображается в нижнем левом углу окна;

• ячейки, которые могут включать конкретные данные или формулы. Каждая ячейка имеет уникальное имя, образованное номером строки и именем столбца (например, Е8). Наличие уникального имени позволяет оперировать им для составления формул.

Рассмотрим использование программы Excel на этапе подготовки эмпирических данных для последующей математической обработки.

Под матрицей исходных данных понимается таблица, состоящая из данных исследования и представляющая собой матрицу размером т х и, где т — число измеряемых показателей (показателями выступают, например, шкалы опросника, пол, возраст испытуемых и т. д.), а п — число испытуемых (рис. 1).

При сведении данных обследования в единую таблицу каждая строка представляет собой данные одного конкретного испытуемого по всем регистрируемым показателям. Нецелесообразно создавать несколько матриц результатов по отдельным методикам (например, отдельную матрицу по результатам теста Кеттелла, отдельную — по результатам методики исследования самоотношения, отдельную — по результатам рисуночной пробы). MS Excel предоставляет возможности для построения довольно больших матриц (размером 256 показателей на 65 536 испытуемых). К тому же при построении единой матрицы результатов не возникает ситуации, когда данные 1-й строки в разных матрицах относятся к разным испытуемым, что противоречит правильности построения матрицы исходных результатов.

Начиная создавать матрицу исходных результатов, рекомендуется подготовить заголовки, обозначающие названия методик и регистрируемые показатели. Заголовки будут очень полезны на этапе наглядного представления результатов, их создание помогает в целом отформатировать таблицу, придать ей тот вид, который окажется наиболее удобным

 

Рис. 1. Матрица исходных данных, где X. — это значение у'-го показателя у /-го испытуемого

 

  Показатель 1 Показатель 2 Показатель 3   Показатель у     Показатель т
Испытуемый 1 х„ х,2 Х13   XV     Х
Испытуемый 2 Х2, Х22 х23   X,     Х
Испытуемый 3 Хз, х32 х33   X*     Хзт
           
                 
Испытуемый / V, Х„'2 х,А   \     Х,т
                 
Испытуемый п Х,Л Х„п2 Х,,п3   X,     X пт

 

  А В С D Е F G Н I J К
1      

1. Методика Басса-

-Дарки     Шк Спиг гер Хан ала 1бер- а— ина
2   Физическая агрессия Косвенная агрессия Склонность к раздражению Негативизм Обида Подозрительность Вербальная агрессия Чувство вины СТ лт
3 Исп. 1                    
4 Исп. 2                    
5 Исп. 3                    
6 Исп. 4                    
7 Исп. 5               S,    
8 Исп. 6                   Ц»
9 Исп. 7                    

Рис. 2. Заголовки матрицы исходных данных

 


для последующих операций. Фрагмент заголовков может выглядеть следующим образом (рис. 2).

Следующим моментом, существенно упрощающим работу с таблицей данных, является закрепление областей. Для того чтобы закрепить области, необходимо выделить ту ячейку, которая будет первой в общем массиве данных . Далее необходимо обратиться к вкладке ленты Вид и выбрать раздел Закрепить области (рис. 3). Закрепление будет производиться левее и выше выбранной ячейки. Закрепление областей позволяет зафиксировать заголовки таблицы и подписи строк для того, чтобы можно было просматривать данные и одновременно видеть заголовки.

  А В С D Е F G Н I J К
1

 

   

1. Методика Басса—

Дарки    

Шкала

Спилбер-

гера—

Ханина

2 Физическая агрессия Косвенная агрессия Склонность к раздражению Негативизм Обида Подозрительность Вербальная агрессия Чувство вины СТ лт
3 Исп. 1                    
4 Исп. 2                    
5 Исп. 3                    
6 Исп. 4                    
7 Исп. 5                    
8 Исп. 6                    
9 Исп. 7                    

Рис. 4.3. Выбор ячейки для закрепления областей матрицы исходных данных

 


Теперь таблица готова к заполнению данными испытуемых.

Иногда при заполнении таблицы исходными данными происходит автоматическое форматирование введенных значений. Тогда значение числа искажается. Например, при введении 10,05 вы видите в ячейке 10,май. Это означает, что Excel автоматически преобразовал введенное число в формат даты. Для того чтобы избежать такого преобразования, пользуйтесь правой частью клавиатуры при отжатой клавише Num Lock. В таком случае число будет введено правильно, то есть 10,05

В Microsoft Excel важно понимать назначение различных визуальных средств, к примеру изображения указателя. Каждый из видов указателя отражает набор конкретных функций и действий (табл. 1).

Таблица 1. Виды указателя и его функции в Microsoft Excel


Таблица 5.1. Виды указателя и его функции в Microsoft Excel

Вид указателя Функция
А 4* В

Изменение ширины столбца или высоты строки

 
- Выделить строку, столбец
О Выделить ячейку, выделить область (совокупность ячеек)
 

Переместить ячейки, области (совокупности ячеек)

г I
57
0 Корректировать данные в ячейке или строке формул
=1 Применить автозаполнение, в том числе автонумерацию и копирование содержимого ячеек Mi»

 


  А G Н I J К М N О Р Q R  
1

 

1. Методика Басса—Дарки

Шкала Спилбер- гера—Ха- нина

ТЕСТ КЕТТЕЛЛА в стенах

 
2 Подозрительность Вербальная агрессия Чувство вины СТ ЛТ А В С D F G  
10 Исп. 8 1 9 4 33 29 12 7 4 13 6 9  
11 Исп. 9 4 9 5 53 58 13 7 11 9 7 10  
12 Исп. 10 2 5 8 39 53 10 8 9 9 11 19  
13 Исп. 11 1 6 1 57 31 10 7 10 5 14 14  
14 Исп. 12 4 7 4 39 43 11 10 13 15 10 14  
15 Исп. 13 1 11 2 45 34 10 4 9 5 6 7  
16 Исп. 14 3 10 6 41 36 8 8 12 9 13 9  
17 Исп. 15 6 8 10 40 52 6 8 12 10 11 8  
18 Исп. 16 3 10 3 44 33 16 6 8 9 6 14  

Рис. 4.Фрагмент заполненной матрицы исходных данных

 


Матрица исходных данных создана, можно приступать к анализу данных и их графическому представлению.

Выбор методов статистической обработки результатов

Основной задачей исследователя при выборе методов статистической обработки является нахождение наиболее адекватных способов решения поставленных в исследовании научных целей и задач. В табл. 2 приводится классификация статистических методов в соответствии с этапами математической обработки результатов эмпирического исследования.

 

Таблица 2. Этапы математической обработки результатов эмпирического исследования и соответствующие им методы

Этап Методы
  Описательная статистика Табулирование; упорядочивание (ранжирование); расчет первичных статистик: • меры центральной тенденции (среднее, мода, медиана и др.); • показатели вариативности (дисперсия, стандартное отклонение); • показатели формы распределения (показатели асимметрии и эксцесса); меры ошибок репрезентативности; группировка данных (построение гистограммы, полигона); построение среднегрупповых профилей; проверка нормальности распределения
  Оценка взаимосвязи исследуемых признаков   Оценка связи между качественными признаками: • тетрахорический коэффициент корреляции; • коэффициент взаимной сопряженности Пирсона; • коэффициент взаимной сопряженности Чупрова; • коэффициент контингенции; оценка связи между порядковыми признаками (измерены методом ранжирования): • коэффициенты ранговой корреляции т Спирмена, Кендэлла; оценка согласованности мнений экспертов (метод экспертных оценок): • коэффициент согласованности Спирмена; • коэффициент конкордации Кендэлла; оценка связи между количественными признаками: коэффициент корреляции г Пирсона
Анализ структуры взаимосвязей Метод корреляционных плеяд
  Выявление различий в уровне исследуемого признака Параметрический критерий t Стьюдента; непараметрические критерии: • критерий Розенбаума; • критерий Манна — Уитни; ^ • критерий тенденций Крускала — Уоллиса; критерий тенденций Джонкира
    Оценка достоверности сдвига в значениях исследуемого признака Параметрический критерий t Стьюдента; непараметрические критерии: • критерий знаков; • критерий Вилкоксона; • критерий Фридмана; критерий тенденций Пейджа
  Многофункциональные статистические критерии Критерий (р* — угловое преобразование Фишера; биномиальный критерий т

 

Таблица 2. Этапы математической обработки результатов эмпирического исследования и соответствующие им методы

этап методы
  Выявление различий в распределении Критерий Пирсона; критерий Колмогорова—Смирнова; биномиальный критерий т
    Анализ изменений признака под влиянием контролируемых условий Один признак: • критерий тенденций Джонкира; • критерий тенденций Пейджа; • однофакторный дисперсионный анализ Фишера; два признака: двухфакторный дисперсионный анализ Фишера
  Исследование явлений, характеризующихся большим   количеством признаков Факторный анализ — выявляет влияние скрытых латентных факторов, обусловливающих множественные корреляции; регрессионный анализ — прогнозирует развитие фактора, который имеет тенденцию изменяться через определенный промежуток времени; кластерный анализ — выявляет связь или степень подобия различных объектов по подобию их характеристик (переменных). По определенным статистическим критериям различные сходные объекты (например, испытуемые) объединяются в классы (группы, кластеры и т. д.)

Для выполнения необходимых операций над матрицей исходных данных пользователь может набирать формулы — инструкции, манипулирующие данными рабочего листа. Формулы всегда начинаются с символа = (равенство) и содержат математические, статистические или логические операции [3]. Например, можно ввести формулу, которая позволит автоматически высчитывать интегральные показатели теста (формула =F3+G3, набранная в свободной ячейке в третьей строке в приведенном ранее примере матрицы исходных данных, позволяет высчитать индекс враждебности первого испытуемого, который определяется как сумма показателей обиды и подозрительности). При этом формулу можно копировать для всего ряда испытуемых, что существенно сокращает время на обработку тестов. Можно проводить и более сложные вычисления, используя встроенные в табличный процессор функции. Для этого необходимо вызвать мастер функций рис. нажатием кнопки fx. Мастер функций позволяет выбрать необходимое математическое действие и диапазон данных, над которыми оно будет осуществляться

Рис. 5. Вид диалогового окна мастера функций MS Excel

 

Продемонстрируем использование функций на примере определения одной из мер центральной тенденции. Среднее значение представляет собой некоторую центральную точку или типичное значение, вокруг которого концентрируются данные. Оно определяется как результат деления суммы всех значений ряда на их количество. Для начала работы необходимо выделить ячейку, в которую будет введена формула. Лучше всего, если эта ячейка расположена за последним значением ряда (рис. 6). Далее следует вызвать мастер функций и выбрать категорию Статистические. В перечне функций выбрать функцию Срзнач и нажать ОК. На следующем шаге необходимо выбрать аргументы функции, то есть

 

                                    Рис. 6 Выбор диапазона аргументов функции

те значения, которые составляют ряд первичных данных по показателю, среднее значение которого определяется.

Обычно табличный процессор автоматически определяет диапазон данных на основе заполнения ячеек данными сверху или левее ячейки, в которой размещается формула. В большинстве случаев этот диапазон является верным. Однако если необходимо вычислить среднее значение по отдельным значениям диапазона (например, только по значениям девочек), пользователь может ввести адреса ячеек, выделив их при нажатой клавише Ctrl . Для того чтобы окно мастера функций не мешало обзору данных, его можно свернуть нажатием значка Я Расположенного справа в строке задания числовых значений или аргументов функции. Повторное нажатие этого значка приведет к раскрытию окна. Далее можно нажать Enter или ОК для завершения вычисления среднего значения. Скопировав функцию с помощью перетягивания мышью маркера заполнения, пользователь может автоматически высчитать средние значения по всем показателям без повторного ввода формул.

Аналогичным способом можно использовать другие статистические и логические функции. Однако расчет более сложной статистики в табличном процессоре Excel является довольно громоздким и трудоемким. К тому же обнаружено, что отдельные статистические функции программы содержат ошибки и могут дать некорректные результаты, особенно если объемы данных очень велики. Эти обстоятельства требуют перепроверки расчетов или использования специализированных статистических пакетов программ

4.10.3 Количественная обработка данных в программах Statistica, SPSS

Специализированные статистические пакеты обладают широкими возможностями обработки данных и позволяют применять самые современные методы математической статистики. Наиболее известны, имеют долгую историю и отличную репутацию такие программы, как Statistica и Statistical Package for the Social Sciences (SPSS).

Отличительными чертами данных статистических пакетов являются:

• высокая скорость и точность вычислений;

широкий набор статистических функций (факторный, регрессионный, кластерный, частотный, дискриминантный

• многомерный анализ, критерии согласия, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, t-тесты, большое количество непараметрических критериев и многое другое);

• привычные для пользователей Microsoft Office способы работы с таблицами (ввод и корректировка данных и т. п.);

• легкость конвертации данных в различные электронные таблицы и базы данных и наоборот (импорт и экспорт данных);

• возможность выполнения операций как с числовыми, так и с текстовыми данными;

• широкие графические возможности, позволяющие строить 2D- и ЗО-графики, большое количество разнообразных видов и типов диаграмм.

Для освоения названных статистических пакетов требуется минимум времени, поскольку пользователю не требуется применять знания в области программирования, необходимые при использовании статистических программ с открытым кодом. Для того чтобы работать с данными приложениями, достаточно понимания стратегий статистической обработки данных и общих навыков работы с электронными таблицами.

Оба статистических пакета имеют много общего, в том числе панели инструментов, способы организации и хранения данных и т. п. SPSS и Statistica являются примерами «закрытых» продуктов. Среди статистических пакетов, позволяющих продвинутому пользователю запрограммировать любую произвольно сложную последовательность операций статистического анализа, можно отметить приложения MatLab и R. Эти продукты обеспечивают как язык программирования, так и среду для статистических и графических операций и являются программами с открытым кодом.

В настоящее время существует множество учебников, посвященных работе с различными статистическими пакетами, поэтому мы ограничимся описанием основных принципов работы с данными в программах Statistica и SPSS [4]. Далее приведена табл. 3, содержащая основные сведения о работе с указанными программами.

 

Таблица 3. Основные характеристики работы со специализированными статистическими пакетами Statistica и SPSS

 

Statistica SPSS

Файлы

Файлы данных с расширением .sta, файлы таблиц результатов с расширением .scr, графические файлы с расширением .stg, а также файлы языка SCL с расширением .scl и файлы языка Statistica Basic с расширением .stb Интерфейс (окна) Файлы данных с расширением .sav, графические файлы с расширением .spo, файлы вывода с расширением .spf, исполняемые файлы (редактор синтаксиса) с расширением .sps, файлы редактора скриптов с расширением .sbs

Способ ввода данных

Окно файла данных. В последних версиях программы могут быть открыты несколько файлов данных, операции анализа могут осуществляться только с одним активным файлом данных. Окно вывода таблиц результатов (Scrollsheets). Окно вывода графиков. Текстовые окна (окна для редактирования программ Statistica Basic или SCL, окна для вывода информации процедурами анализа, отчеты, текстовые файлы)   Окно редактора данных. Содержит две вкладки: окно данных и окно переменных, позволяющие редактировать как числовые данные, так и спецификации переменных. Редактор просмотра результатов. Позволяет отображать на дисплее или скрывать таблицы и рисунки, содержащие результаты статистических вычислений. Окно редактора синтаксиса. Позволяет сохранять все шаги по преобразованию и трансформации данных. Окно редактора скриптов (сценариев) позволяет осуществлять операции по программированию в среде SPSS
Импорт данных из других программных источников (Microsoft Access, Microsoft Excel, текстовых файлов и др.). Ввод данных непосредственно в Statistica при помощи специализированного программного обеспечения (Data Miner). Ручной ввод данных в Statistica Импорт данных из других программных источников (Microsoft Access, Microsoft Excel, текстовых файлов и др.). Ввод данных непосредственно в SPSS при помощи специализированного программного обеспечения (SPSS Data Entry). Ручной ввод данных в SPSS

 

Корретировка и дополнение данных

Возможен как автоматический пересчет данных, так и ручной ввод исправлений Возможен как автоматический пересчет данных, так и ручной ввод исправлений

Алгоритмы анализа данных

Статистический анализ начинается с активизации в строке меню раздела Анализ, содержащего список выполняемых статистических методов. Выбор метода активизирует окно диалога, предлагающее пользователю выбрать переменные для анализа и условия его осуществления Статистический анализ начинается с активизации в строке меню раздела Анализ, содержащего список выполняемых статистических методов. Выбор метода активизирует окно диалога, предлагающее пользователю выбрать переменные для анализа. После выбора переменных пользователь переходит к выбору условий осуществления анализа, используя командные кнопки Statistics... (Статистика), Charts... (Диаграммы или Графики) и Format... (Формат)
Экспорт результатов обработки
Возможно сохранение результатов обработки данных в файле отчета (Report) как для каждого отдельного вида анализа, так и для всей совокупности статистических процедур. Файл отчета может быть сохранен в формате RTF или PDF. Любой результат статистического анализа может быть экспортирован в офисные приложения MS Word и MS Excel с помощью буфера обмена Экспорт результатов обработки данных может быть осуществлен в редакторе просмотра результатов. Пользователь может выбрать как фрагмент представленных результатов, так и все содержимое отчета и скопировать их в офисные приложения MS Word и MS Excel
Графические возможности
Широкие возможности построения гистограмм, диаграмм рассеяния, графиков средних с ошибками, графиков поверхностей. Построение 2М-графиков, ЗМ-последовательных графиков, ЗМ XYZ-графиков, категоризованных графиков, графиков пользователя, графиков блоковых данных и многих других Обширные возможности построения диаграмм различного типа. В программу встроены конструктор диаграмм и панель выбора диаграмм. Эти инструменты позволяют строить диаграммы в интерактивном режиме (изменять выбор переменных, добавлять переменные, задавать новые категории данных и т. д.)

Вопросы для самоконтроля :

1. Опишите основные преимущества использования компьютерных программ для анализа данных педагогического/психологи- ческого исследования.

2. Определите отличительные черты табличного процессора MS Excel.

3. Создайте матрицу исходных данных в MS Excel. Для этого проведите небольшое исследование на выборке из 10 человек.

4. Просчитайте основные статистические функции (среднее, стандартное отклонение, мода, медиана, дисперсия и т. д.).

5. Используйте логические функции для того, чтобы определить испытуемых с показателями выше среднего по первым двум исследуемым показателям.


Дата добавления: 2019-01-14; просмотров: 1675; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!