На основании данных таблицы корреляции, мы построили диаграммы рассеяния.



Диаграммы рассеяния – это вид графического отображения данных, когда каждое наблюдение изображается точкой на координатной плоскости, где оси соответствуют переменным (X - горизонтальной, а Y - вертикальной оси). Две координаты, которые определяют положение каждой точки, соответствуют значениям двух переменных для этой точки. Диаграмма рассеяния визуализирует зависимость между двумя переменными X и Y (рис.1).

 

Рис.1 Диаграмма рассеяния


Регрессионный анализ

 

В линейный регрессионный анализ входит широкий круг задач, связанных с построением (восстановлением) зависимостей между группами числовых переменных и .

Предполагается, что - независимые переменные (предикторы, объясняющие переменные) влияют на значения - зависимых переменных (откликов, объясняемых переменных). По имеющимся эмпирическим данным , требуется построить функцию , которая приближенно описывала бы изменение при изменении :

.

Предполагается, что множество допустимых функций, из которого подбирается , является параметрическим:

,

где - неизвестный параметр (вообще говоря, многомерный). При построении будем считать, что

, (1)

где первое слагаемое – закономерное изменение от , а второе - - случайная составляющая с нулевым средним; является условным математическим ожиданием при условии известного и называется регрессией по .

Пусть n раз измерены значения факторов и соответствующие значения переменной y; предполагается, что

(2)

(второй индекс у x относится к номеру фактора, а первый – к номеру наблюдения); предполагается также, что

(3)

т.е. - некоррелированные случайные величины. Соотношения (2) удобно записывать в матричной форме:

, (4)

где - вектор-столбец значений зависимой переменной, t - символ транспонирования, - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, - вектор случайных отклонений,

-матрица ; в i-й строке находятся значения независимых переменных в i-м наблюдении первая переменная – константа, равная 1.

Построим оценку для вектора так, чтобы вектор оценок зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора заданных значений:

.

Решением является (если ранг матрицы равен k+1) оценка

(5)

Нетрудно проверить, что она несмещенная.

Таблица №5

Предсказанные значения и остатки, с зависимой перемен.: MnO

Наблюд. Значение

Предск. Значение

Остатки

Станд. предск.

Станд. Остатки

Стд.Ош. предск.

Махалан. расст.

Удален. остатки

Кука расст.

1

0,100000

0,098961

0,001039

-1,09527

0,01781

0,014960

1,199612

0,001112

0,000012

2

0,100000

0,117400

-0,017400

-0,09332

-0,29828

0,010049

0,008708

-0,017932

0,001402

3

0,100000

0,137376

-0,037376

0,99213

-0,64071

0,014198

0,984314

-0,039730

0,013739

4

0,100000

0,089742

0,010258

-1,59624

0,17585

0,019048

2,547990

0,011483

0,002066

5

0,100000

0,140449

-0,040449

1,15912

-0,69339

0,015448

1,343554

-0,043500

0,019496

6

0,100000

0,131230

-0,031230

0,65814

-0,53535

0,012031

0,433152

-0,032617

0,006649

7

0,200000

0,140449

0,059551

1,15912

1,02083

0,015448

1,343554

0,064042

0,042258

8

0,200000

0,137376

0,062624

0,99213

1,07351

0,014198

0,984314

0,066567

0,038569

9

0,100000

0,145059

-0,045059

1,40961

-0,77241

0,017464

1,986986

-0,049495

0,032259

10

0,100000

0,117400

-0,017400

-0,09332

-0,29828

0,010049

0,008708

-0,017932

0,001402

11

0,100000

0,135839

-0,035839

0,90863

-0,61437

0,013610

0,825609

-0,037902

0,011489

12

0,100000

0,106644

-0,006644

-0,67779

-0,11389

0,012143

0,459398

-0,006945

0,000307

13

0,100000

0,109717

-0,009717

-0,51080

-0,16658

0,011269

0,260914

-0,010094

0,000559

14

0,100000

0,145059

-0,045059

1,40961

-0,77241

0,017464

1,986986

-0,049495

0,032259

15

0,100000

0,131230

-0,031230

0,65814

-0,53535

0,012031

0,433152

-0,032617

0,006649

16

0,100000

0,111254

-0,011254

-0,42730

-0,19292

0,010905

0,182587

-0,011661

0,000698

17

0,100000

0,102034

-0,002034

-0,92828

-0,03487

0,013746

0,861697

-0,002154

0,000038

18

0,100000

0,088205

0,011795

-1,67974

0,20219

0,019775

2,821521

0,013326

0,002998

19

0,100000

0,134303

-0,034303

0,82513

-0,58803

0,013050

0,680847

-0,036110

0,009587

20

0,200000

0,135839

0,064161

0,90863

1,09985

0,013610

0,825609

0,067854

0,036821

21

0,100000

0,126620

-0,026620

0,40766

-0,45632

0,010827

0,166183

-0,027570

0,003847

22

0,200000

0,111254

0,088746

-0,42730

1,52131

0,010905

0,182587

0,091960

0,043419

23

0,200000

0,100498

0,099502

-1,01177

1,70569

0,014341

1,023683

0,105902

0,099583

24

0,050000

0,108181

-0,058181

-0,59429

-0,99735

0,011684

0,353185

-0,060612

0,021653

25

0,300000

0,138913

0,161087

1,07562

2,76140

0,014812

1,156962

0,172189

0,280853

26

0,200000

0,092815

0,107185

-1,42925

1,83739

0,017628

2,042758

0,117956

0,186673

27

0,100000

0,138913

-0,038913

1,07562

-0,66705

0,014812

1,156962

-0,041594

0,016388

28

0,200000

0,126620

0,073380

0,40766

1,25790

0,010827

0,166183

0,075998

0,029233

29

0,100000

0,114327

-0,014327

-0,26031

-0,24560

0,010348

0,067761

-0,014793

0,001012

30

0,000000

0,075912

-0,075912

-2,34770

-1,30130

0,025855

5,511716

-0,094469

0,257572

31

0,000000

0,106644

-0,106644

-0,67779

-1,82812

0,012143

0,459398

-0,111475

0,079118

32

0,100000

0,109717

-0,009717

-0,51080

-0,16658

0,011269

0,260914

-0,010094

0,000559

33

0,100000

0,115864

-0,015864

-0,17681

-0,27194

0,010164

0,031263

-0,016360

0,001194

34

0,100000

0,128157

-0,028156

0,49115

-0,48266

0,011179

0,241230

-0,029230

0,004610

Минимум

0,000000

0,075912

-0,106644

-2,34770

-1,82812

0,010049

0,008708

-0,111475

0,000012

Максим.

0,300000

0,145059

0,161087

1,40961

2,76140

0,025855

5,511716

0,172189

0,280853

Среднее

0,119118

0,119118

0,000000

0,00000

0,00000

0,013744

0,970588

-0,000176

0,037793

Медиана

0,100000

0,117400

-0,015095

-0,09332

-0,25877

0,013330

0,753228

-0,015576

0,010538

Рис.2 Нормальный вероятностный график

Множественная линейная регрессия предполагает линейную связь между переменными в уравнении, и нормальным распределением остатков. Если эти предположения нарушаются, окончательные заключения могут оказаться неточными. Нормальный вероятностный график остатков наглядно показывает наличие или отсутствие больших отклонений от высказанных предположений.

 

Таблица №6

Итоговые статистики TiO2

 

Статистик

Значение

Множест. R

0,9470

Множест. R2

0,8969

Скорр. R2

0,8936

F(1,32)

278,2715

p

0,0000

Стд. Ош. Оценки

0,2968

 

Таблица №7

Итоги регрессии для зависимой переменной: TiO2

R= ,94702932 R2= ,89686452 Скорректир. R2= ,89364154

F(1,32)=278,27 p<,00000 Станд. ошибка оценки: ,29676

 

 

БЕТА

Стд.Ош. БЕТА

B

Стд.Ош. B

t(32)

p-уров.

Св.член

 

 

-0,211792

0,091315

-2,31937

0,026915

Fe2O3

0,947029

0,056771

0,179620

0,010768

16,68147

0,000000

 

Нелинейня регрессия

Различают два класса нелинейных регрессий:

§ регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;

§ регрессии, нелинейные по оцениваемым параметрам.

Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:

§ полиномы разных степеней:

§ равносторонняя гипербола:  

 

К нелинейным регрессиям по оцениваемым параметрам относятся функции:

§ степенная:                               

§ показательная:                       

§ экспоненциальная:                

Параметры нелинейной регрессии по включенным переменным оцениваются, как и в линейной регрессии, методом наименьших квадратов, поскольку эти функции линейны по параметрам.

Как показывает опыт большинства исследователей, среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка. Ограничения в использовании полиномов более высоких степеней связаны с требованием однородности исследуемой совокупности: чем выше порядок полинома, тем больше изгибов имеет кривая и соответственно менее однородна совокупность по результативному признаку.

Парабола второй степени целесообразна к применению, если для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую. В этом случае определяется значение фактора, при котором достигается максимальное (или минимальное) значение результативного признака: приравниваем к нулю первую производную параболы второй степени. Если же исходные данные не обнаруживают изменения направленности связи, то параметры параболы второго порядка становятся трудно интерпретируемыми, а форма связи часто заменяется другими нелинейными моделями.

Среди класса нелинейных функций, параметры которых без особых затруднений оцениваются МНК, следует назвать хорошо известную в эконометрике равностороннюю гиперболу:

Иначе обстоит дело с регрессией, нелинейной по оцениваемым параметрам. Данный класс нелинейных моделей подразделяется на два типа: нелинейные модели внутренне линейные и нелинейные модели внутренне нелинейные. Если нелинейная модель внутренне линейна, то она с помощью соответствующих преобразований может быть приведена к линейному виду. Если же нелинейная модель внутренне нелинейна, то она не может быть сведена к линейной функции. Например, в эконометрических исследованиях широко используется степенная функция:

Данная модель нелинейна относительно оцениваемых параметров, ибо включает параметры и неаддитивно. Однако ее можно считать внутренне линейной, ибо логарифмирование данного уравнения по основанию е приводит его к линейному виду. Соответственно оценки параметров и могут быть найдены с помощью МНК.

В специальных исследованиях по регрессионному анализу часто к нелинейным относят модели, только внутренне нелинейные по оцениваемым параметрам, а все другие модели, которые внешне нелинейны, но путем преобразований параметров могут быть приведены к линейному виду, относятся к классу линейных моделей. В этом плане к линейным относят, например, экспоненциальную модель , поскольку логарифмируя ее по натуральному основанию, получим линейную форму модели: .

Если модель внутренне нелинейна по параметрам, то для оценки параметров используются итеративные процедуры, успешность которых зависит от вида уравнений и особенностей применяемого итеративного подхода.

 

Кластерный анализ

Кластерный анализ — это общий термин для целого ряда методов, используемых для группировки объектов, событий или индивидов в классы (кластеры) на основе сходства их характерных признаков. Несмотря на отсутствие единого определения кластера, во всех его определениях особо подчеркиваются такие условия, как сходство, однородность и близость. Если воспользоваться специальной терминологией, то кластеры можно определить, как однородные подгруппы, формируемые методом, который минимизирует дисперсию внутри групп (кластеров) и максимизирует дисперсию между группами.

Методики кластеризации используются для установления сходных подгрупп объектов или индивидов и для построения таксономии. Таким образом, они помогают исследователю в описании структуры совокупности объектов и отношений между ними, а также в формулировании законов и утверждений относительно классов объектов.

Если обобщить различные классификации методов кластеризации, то можно выделить ряд групп (некоторые методы можно отнести сразу к нескольким группам и потому предлагается рассматривать данную типизацию как некоторое приближение к реальной классификации методов кластеризации):[1]

1. Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов.

· K-средних (K-means)

· K-medians

· EM-алгоритм

· Алгоритмы семейства FOREL

· Дискриминантный анализ

 

2. Подходы на основе систем искусственного интеллекта. Весьма условная группа, так как методов AI очень много и методически они весьма различны.

· Метод нечеткой кластеризации C-средних (C-means)

· Нейронная сеть Кохонена

· Генетический алгоритм

 

3. Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.

Рис.2 Дендрограмма горизонтальная

4. Теоретико-графовый подход.

· Графовые алгоритмы кластеризации

 

5. Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка). Алгоритмы в свою очередь подразделяются на агломеративные (объединительные) и дивизивные (разделяющие). По количеству признаков иногда выделяют монотетические и политетические методы классификации.

· Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии.

 

6. Другие методы. Не вошедшие в предыдущие группы.

· Статистические алгоритмы кластеризации

· Ансамбль кластеризаторов

· Алгоритмы семейства KRAB

· Алгоритм, основанный на методе просеивания

· DBSCAN и др.

Подходы 4 и 5 иногда объединяют под названием структурного или геометрического подхода, обладающего большей формализованностью понятия близости[2]. Несмотря на значительные различия между перечисленными методами все они опираются на исходную «гипотезу компактности»: в пространстве объектов все близкие объекты должны относиться к одному кластеру, а все различные объекты соответственно должны находиться в различных кластерах.

Таблица №9

Средние значения двух кластеров

Наблюден

Кластер Но. 1

Кластер Но. 2

C_1

42,10000

5,740000

C_2

55,00000

4,330000

C_3

51,50000

4,940000

C_4

66,10000

3,360000

C_5

67,30000

3,290000

C_6

46,80000

5,250000

C_7

46,00000

5,460000

C_8

44,40000

5,600000

C_9

52,20000

4,630000

C_10

40,20000

5,890000

C_11

59,50000

4,070000

C_12

42,90000

5,580000

C_13

56,50000

4,240000

C_14

63,50000

3,640000

C_15

57,40000

4,200000

C_16

59,50000

3,960000

C_17

58,10000

4,220000

C_18

50,80000

4,790000

C_19

64,20000

3,570000

C_20

44,10000

5,530000

C_21

46,40000

5,270000

C_22

45,00000

5,500000

C_23

47,00000

5,230000

C_24

76,00000

2,435000

C_25

46,10000

5,410000

C_26

49,80000

5,010000

C_27

59,20000

4,010000

C_28

44,00000

5,160000

C_29

64,70000

3,470000

C_30

72,70000

2,680000

C_31

69,20000

3,000000

C_32

65,70000

3,330000

C_33

56,30000

4,300000

C_34

54,20000

4,530000

 

 

Таблица №10

Средние значения и евклидово расстояние между кластерами

Наблюдения

Но. 1

Но. 2

Но. 1

0,00000

2647,198

Но. 2

51,45092

0,000

 

Таблица №11

Элементы кластера 1

 

перемен. Al2O3

Расст.

0,00

 

 

Набл.Но. C_11

Набл.Но. C_13

Набл.Но. C_15

Набл.Но. C_16

Набл.Но. C_17

Набл.Но. C_27

Набл.Но. C_33

Расст.

1,385540

1,996844

1,009427

1,728706

0,668285

1,443969

1,373254

 

Таблица №12

                           Элементы кластера 2

 

перемен. Fe2O3

перемен. CaO

перемен. ППП

Расст.

3,854087

2,999553

1,923912

 

 

Набл.Но. C_2

Набл.Но. C_3

Набл.Но. C_6

Набл.Но. C_9

Набл.Но. C_18

Набл.Но. C_34

Расст.

1,290545

1,352570

2,033072

1,340191

1,602571

1,373027

 

 

Рис.3 График средних для каждого кластера

 

Факторный анализ

 

С возрастанием количества анализируемых признаков быстро растет трудность изучения и классификации характеризуемых ими объектов. Между тем, любые сложнопостроенные системы, как правило, управляются сравнительно небольшим набором факторов. Выявлению и анализу этих факторов посвящен широкий круг вычислительных процедур, обычно объединяемых названием «факторный анализ». Следует однако, помнить, что в названной области выделяется несколько самостоятельных процедур: метод главных компонент (МГК), R–метод факторного анализа, Q–метод факторного анализа, анализ главных координат, анализ соответствия. Все эти методы основаны на выделении собственных значений и собственных векторов ковариационной или корреляционной матрицы,  поскольку заранее предполагается, что в наборе многомерных наблюдений скрыта простая структура, выражающаяся через дисперсии и ковариации переменных.

Метод главных компонент позволяет выявить группы элементов, наиболее тесно связанных с тем или иным мощным фактором. Элементы, однонаправлено изменяющие свое состояние под действием общего фактора, могут быть объединены в комбинации, называемые главными компонентами. Число последних намного меньше исходного числа параметров, в то же время они несут практически всю полезную информацию об изменчивости свойств, заключенную в исходной совокупности.

Главные компоненты вычисляются по формулам:

1ГК = ∑ωilxi = ω1l ·х1 + ω1х2 + . . . . +ωn1хn;       

2ГК = ∑ωi2xi;   

3ГК = ∑ωi3xi и т.д..

Здесь xi - значения параметров, ωij - факторные нагрузки (это влияние j -го фактора на i -й элемент, т.е. своего рода коэффициент корреляции между ними).

Таким образом, для нахождения главных компонент  нам необходимо вычислить матрицу факторных нагрузок W. Она определяется из соотношения:

W = uΛ½

где u - матрица собственных векторов, а Λ - матрица собственных чисел корреляционной матрицы R. Элементы матрицы Λ определяются как корни характеристического уравнения:

|R-λ׀| = 0 ,    где I - единичная матрица.

Вычислив этот определитель, получаем уравнение, степень которого и число полученных корней равны числу строк в корреляционной матрице R . При этом λ123 . . . >λn, a ∑λi = n. Матрица u, находится из выражения:

(R - λ1)u=0

Подставляя в это уравнение найденные значения λi, получаем для каждого λi вектор значений ui.

Таблица №13

Матрица факторных нагрузок

 

  Na2O MgO Al2O3 SiO2 P2O5 S* K2O CaO TiO2 MnO Fe2O3
F1 0,33 -0,74 -0,41 0,88 -0,57 0,15 0,61 -0,59 -0,42 -0,74 -0,85
F2 -0,27 0,40 -0,84 0,36 -0,16 -0,34 -0,40 0,67 -0,77 0,04 -0,32

9.

Как видим, 1-й фактор значимо влияет на все элементы. Такой фактор обычно называют генеральным. Генеральный фактор отрицательно сказывается на контрастности корреляционной матрицы, обуславливая перекрытие выделяемых групп. Дать главным факторам геологическую интерпретацию не всегда возможно, но когда это удается, информативность метода резко возрастает. В частности, в рассмотренном примере со 2-м фактором, видимо, связан процесс карбонатизации пород. Дать интерпретацию 1-му фактору сложнее. Возможно, это песчаники.

Одно из главных препятствий в применении геологами различных модификаций факторного анализа заключено в абстрактности понятий собственных векторов и собственных значений корреляционных матриц. Между тем, эти категории имеют вполне определенный содержательный  и геометрический смысл. На рис. видно, что строки корреляционной матрицы можно представить как произвольные оси двумерного эллипсоида, тогда собственные вектора, дают направление главных осей эллипсоида, а корень из величины  собственного значения – длину главных полуосей. Поскольку собственные значения включают в себя дисперсии переменных, очевидно, что и факторы отражают дисперсии (точнее, стандартные отклонения). При этом наклон и длина главных осей эллипсоида наглядно свидетельствуют о влиянии фактора на значения конкретной переменной.

Поскольку одна из главных задач факторного анализа - сокращение размерности исходного пространства признаков, важнейшим вопросом является выбор количества сохраненных факторов. Формального ответа на этот вопрос не существует, поэтому в большинстве случаев рекомендуется сохранять столько факторов, сколько имеется собственных чисел, больших 1, то есть сохраняются факторы, вклад которых в дисперсию больше, чем у каждой из исходных переменных. Эта рекомендация полезна в тех случаях, когда исходные данные хорошо скоррелированы и первые 2-3 фактора дают основной вклад в общую дисперсию. Если же переменные скоррелированы слабо, то половина и даже больше факторов может иметь собственные числа большие единицы. 

Таблица №14

Факторные нагрузки 1 и 2

 

фактор 1

фактор 2

SiO2

0,879742

0,303022

TiO2

-0,756127

0,558065

Al2O3

0,568031

0,151807

Fe2O3

-0,833181

0,470893

MnO

-0,745744

-0,174518

MgO

-0,297641

-0,395410

CaO

-0,533329

-0,662236

Na2O

0,077983

0,573320

K2O

0,481027

-0,477773

P2O5

-0,621548

0,622243

ППП

-0,698446

-0,618996

общ.дис

4,403306

2,600712

доля общ

0,400301

0,236428

 

Таблица №15

Выделение главных компонентов

 

Соб. зн.

% общей дисперс. Кумулятивн. собст. знач. Кумулятивн. %

1

4,403306

40,03005

4,403306

40,03005

2

2,600712

23,64284

7,004018

63,67289

 

Рис.4 Диаграмма факторных нагрузок

Заключение

Данная контрольная работа, основной целью, которой было выяснить и понять распределение полезных компонентов в пределах Восточного Забайкалья, по данным полученным в результате опробования керна скважин и проведения рентгенофлуоресцентного анализа проб, решила много задач.

В результате написания автор научился применять математические методы моделирования для обработки геологической информации, в программе «Statistica», которая является программным пакетом для статистического анализа, разработанного компанией StatSoft, реализующий функции анализа данных, управления данными, добычи данных, визуализации данных с привлечением статистических методов; формулировать геологические задачи в пригодном виде для их решения математическими методами; изучил основные принципы геолого-математического моделирования.


Список использованной литературы

 

1. Гуськов, О.И. Математические методы в геологии. Сборник задач / О.И. Гуськов, П. И. Кушнарев, С.М. Таранов. – М.: Недра,2007. – 205 с.

2. Каждан, А.Б. Математические методы в геологии. Учебник для вузов / А.Б. Каж- дан, О.И. Гуськов, А.А. Шимановский. – М.: Недра, 2010. – 251 с.

3. Шестаков, Ю.С. Математические методы в геологии. Учебник для вузов. – Крас- ноярск: КИЦМ, 2008. – 208 с. б) дополнительная литература:

4. Беус, А.А. Руководство по предварительной математической обработке геохими- ческих данных при поисковых работах. М.: МГУ, 2006. – 118 с.

 


Дата добавления: 2018-06-27; просмотров: 575; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!