Группировка хозяйств по одному из факторов (Х- внесение органических удобрений на 1 га), влияющих на урожайность(У)



 

По данным о прибыли хозяйств района

Таблица 3.1

Исходные данные

Наименование хозяйств Урожайность, ц/га Стоимость внесенных удобрений на 1 га
ТОО Рассвет 276 104
К-з Дерябинский 230 16
ТОО Левошевское 200 36
ТОО им. Кирова 122 0
АО Стандницкое 197 373
К-з Хлебородный 169 1
АО Землянское 169 286
ТОО Искра 149 112
ТОО Красноголовское 152 0
ТОО Никольское 153 0
ТОО Артюшанское 110 16
К-з Мекурина 109 108
АО Перлевское 101 588
ТОО Староведуговское 97 509
ТОО Старотойденское 94 0
ТОО Николаевское 80 15
К-з Победа 70 38
АО Меловатское 71 51
К-з Новосильский 60 180
К-з Юбилейный 62 0
ТОО Олнианское 50 276
К-з Родина 31 0
АО Серебрянское 22 174
ТОО Луч 23 67
АО Ведуга 21 41

 


проведем группировку предприятий по величине прибыли, образовав 5 групп:

Рассчитаем величину интервала:

Построим вариационный ряд

Таблица 3.2

Распределение хозяйств по стоимость внесенных удобрений на 1 га, тыс. руб.

Группы хозяйств

Число хозяйств, f

Удельный вес хозяйств, %

Начало интервала Конец интервала
0 117,6 18 72
117,6 235,2 2 8
235,2 352,8 2 8
352,8 470,4 1 4
470,4 588 2 8

Итого

25 100

По сгруппированным данным определим среднюю, показатели вариации, моду и медиану

Определим середины интервалов в группах хозяйств

Таблица 3.3

Середины интервалов в группах хозяйств

стоимость внесенных удобрений на 1 га., тыс. руб. (середина интервала) Число хозяйств, f Удельный вес хозяйств, %
58,8 18 72
176,4 2 8
294 2 8
411,6 1 4
529,2 2 8
Итого 25 100

 

Средняя показателя определяется в соответствии с выражением:

 тыс. руб.

Анализ вариации прибыли проведем, рассчитав показатели вариации:

1. Размах вариации:  тыс. руб.

2. Среднее линейное отклонение:

 тыс. руб.

 

3. Дисперсия:

4. СКО:  тыс. руб.

5. Коэффициент вариации:

Исходные данные для расчета моды и медианы:

1. Модальный интервал – 0-117,6 тыс. руб., т.к. его частота=18 максимальна.

2. Медиальный интервал выберем, составив таблицу накапливаемых частот:


Таблица 3.4

Таблица накапливаемых частот

Группы хозяйств

Число хозяйств, f

Накопленная частота

Начало интервала Конец интервала
0 117,6 18 18
117,6 235,2 2 20
235,2 352,8 2 22
352,8 470,4 1 23
470,4 588 2 25

Итого

25  

 

Т.к. половина частот 15, медиальный интервал – 0-117,6 тыс. руб.

Тогда мода:

 тыс. руб.

Медиана:

 тыс. руб.

Вывод: Распределение хозяйств по стоимости внесенных удобрений носит неравномерный характер и несимметричный характер, т.к. мода, медиана и среднее значение не совпадают.

 


Корреляционно-регрессионный анализ

 

Сущность и основные условия применения корреляционного анализа

 

В соответствии с сущностью корреляционной связи ее изучение имеет две цели:

1) измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной (зависимость средних величин результативного признака от значений одного или нескольких факторных признаков);

2) измерение тесноты связи двух (или большего числа) признаков между собой.

Вторая задача специфична для статистических связей, а первая разработана для функциональных связей и является общей. Основным методом решения задачи нахождения параметров уравнения связи является метод наименьших квадратов (МНК), разработанный К. Ф. Гауссом (1777-1855). Он состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной у от ее значений, вычисленных по уравнению связи с факторным признаком (многими признаками) х.

Для измерения тесноты связи применяется несколько показателей. При парной связи теснота связи измеряется прежде всего корреляционным отношением, которое обозначается греческой буквой η. Квадрат корреляционного отношения - это отношение межгрупповой дисперсии результативного признака, которая выражает влияние различий группировочного факторного признака на среднюю величину результативного признака, к общей дисперсии результативного признака, выражающей влияние на него всех причин и условий. Квадрат корреляционного отношения называется коэффициентом детерминации:

                                                  (1)

где k - число групп по факторному признаку;

N — число единиц совокупности;

уi — индивидуальные значения результативного признака;

i - его средние групповые значения;

 - его общее среднее значение;

fi - частота в j-й группе.

Формула (1) применяется при расчете показателя тесноты связи по аналитической группировке. При вычислении корреляционного отношения по уравнению связи (уравнению парной или множественной регрессии) применяется формула (2):

                                                    (2)

 

где  - индивидуальные значения у по уравнению связи.

Сумма квадратов в числителе - это объясненная связью с фактором х (факторами) дисперсия результативного признака у. Она вычисляется по индивидуальным данным, полученным для каждой единицы совокупности на основе уравнения регрессии.

Если уравнение выбрано неверно или сделана ошибка при расчете его параметров, то сумма квадратов в числителе может оказаться большей, чем в знаменателе, и отношение утратит тот смысл, который оно должно иметь, а именно какова доля общей вариации результативного признака, объясняемая на основе выбранного уравнения связи его с факторным признаком (признаками). Чтобы избежать ошибочного результата, лучше вычислять корреляционное отношение по другой формуле (3), не столь наглядно выявляющей сущность показателя, но зато полностью гарантирующей от возможного искажения:

 

                                             (3)

 

В числителе формулы (3) стоит сумма квадратов отклонений фактических значений признака у от его индивидуальных расчетных значений, т.е. доля вариации этого признака, не объясняемая за счет входящих в уравнение связи признаков-факторов. Эта сумма не может стать равной нулю, если связь не является функциональной. При неверной формуле уравнения связи или ошибке в расчетах возрастают расхождения фактических и расчетных значений, и корреляционное отношение снижается, как логически и должно быть.

В основе перехода от формулы (2) к формуле (3) лежит известное правило разложения сумм квадратов отклонений при группировке совокупности:

D общ= D межгр+ D внутригр

Согласно этому правилу можно вместо межгрупповой (факторной) дисперсии использовать разность:

Dобщ - Dвнутригр

что дает:

                                        (4)

 

При расчете η не по группировке, а по уравнению корреляционной связи (уравнению регрессии) мы используем формулу (3). В этом случае правило разложения суммы квадратов отклонений результативного признака записывается как

Dобщ=Dобъясн уравн регр+Dост

Важнейшее положение, которое следует теперь усвоить любому, желающему правильно применять метод корреляционно-регрессионного анализа, состоит в интерпретации формул (2) и (3). Это положение гласит:

Уравнение корреляционной связи измеряет зависимость между вариацией результативного признака и вариацией факторного признака (признаков). Меры тесноты связи измеряют долю вариации результативного признака, которая связана корреляг/ионно с вари-ciifiieu факторного признака (признаков).

Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если же задача исследования состоит в измерении связи не между вариацией двух признаков в совокупности, а между изменениями признаков объекта во времени, то метод корреляционно-регрессионного анализа требует значительного изменения.

Из вышеприведенного положения об интерпретации показателей корреляции следует, что нельзя трактовать корреляцию признаков как связь их уровней. Это ясно хотя бы из следующего примера. Если бы все крестьяне области внесли под картофель одинаковую дозу удобрений, то вариация этой дозы была бы равна нулю, а следовательно, она абсолютно не могла бы влиять на вариацию урожайности картофеля. Параметры корреляции дозы удобрений с урожайностью будут тогда строго равны нулю. Но ведь и в этом случае уровень урожайности зависел бы от дозы удобрений - он был бы выше, чем без удобрений.

Итак, строго говоря, метод корреляционно-регрессионного анализа не может объяснить роли факторных признаков в создании результативного признака. Это очень серьезное ограничение метода, о котором не следует забывать.

Следующий общий вопрос - это вопрос о «чистоте» измерения влияния каждого отдельного факторного признака. Группировка совокупности по одному факторному признаку может отразить влияние именно данного фактора на результативный признак при условии, что все другие факторы не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же изучаемый фактор связан с другими факторами, влияющими на результативный признак, будет получена не «чистая» характеристика влияния только одного фактора, а сложный комплекс, состоящий как из непосредственного влияния фактора, так и из его косвенных влияний, через его связь с другими факторами и их влияние на результативный признак. Данное положение полностью относится и к парной корреляционной связи.

Однако коренное отличие метода корреляционно-регрессионного анализа от аналитической группировки состоит в том, что корреляционно-регрессионный анализ позволяет разделить влияние комплекса факторных признаков, анализировать различные стороны сложной системы взаимосвязей. Если метод комбинированной аналитической группировки, как правило, не дает возможность анализировать более 3 факторов, то корреляционный метод при объеме совокупности около ста единиц позволяет вести анализ системы с 8-10 факторами и разделить их влияние.

Наконец, развивающиеся на базе корреляционно-регрессионного анализа многомерные методы (метод главных компонент, факторный анализ) позволяют синтезировать влияние признаков (первичных факторов), выделяя из них непосредственно не учитываемые глубинные факторы (компоненты). Например, изучая корреляцию ряда признаков интенсификации сельскохозяйственного производства, таких, как фондообеспеченность, затраты труда на единицу Площади, энергообеспеченность, внесение удобрений на единицу площади, плотность поголовья скота, можно синтезировать общую часть их влияния на уровень продукции с единицы площади или на производительность труда, получив обобщенный фактор «интенсификация производства», непосредственно не измеримый, не отражаемый единым показателем.

Правильное применение и интерпретация результатов корреляционно-регрессионного анализа возможны лишь при понимании всех специфических черт, достоинств и ограничений метода.

Необходимо сказать и о других задачах применения корреляционно-регрессионного метода, имеющих не формально математический, а содержательный характер.

1. Задача выделения важнейших факторов, влияющих на результативный признак (т.е. на вариацию его значений в совокупности). Эта задача решается в основном на базе мер тесноты связи факторов с результативным признаком.

2. Задача оценки хозяйственной деятельности по эффективности использования имеющихся факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были бы получены при средней по совокупности эффективности использования факторов и сравнения их с фактическими результатами производства,

3. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков.

Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнение связи и вычисления ожидаемых значений результативного признака.

Приходится решать и обратную задачу: вычисление необходимых значений факторных признаков для обеспечения планового или желаемого значения результативного признака в среднем по совокупности. Эта задача обычно не имеет единственного решения в рамках данного метода и должна дополняться постановкой и решением оптимизационной задачи на нахождение наилучшего из возможных вариантов ее решения (например, варианта, позволяющего достичь требуемого результата с минимальными затратами).

4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач. Например, для нахождения оптимальной структуры производства в районе на перспективу исходная информация должна включать показатели производительности на предприятиях разных отраслей и форм собственности. В свою очередь, эти показатели могут быть получены на основе корреляционно-регрессионной модели либо на основании тренда динамического ряда (а тренд - это тоже уравнение регрессии).

При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов. В этом отношении корреляционные методы глубоко противоречивы. С одной стороны, их идеал - измерение чистого влияния каждого фактора. С другой стороны, такое измерение возможно при отсутствии связи между факторами и случайной вариации признаков. А тогда связь является функциональной, и корреляционные методы анализа излишни. В реальных системах связь всегда имеет статистический характер, и тогда идеал методов корреляции становится недостижимым. Но это не значит, что эти методы не нужны.

Данное противоречие означает попросту недостижимость абсолютной истины в познании реальных связей. Приближенный характер любых результатов корреляционно-регрессионного анализа не является поводом для отрицания их полезности. Всякая научная истина — относительна. Забыть об этом и абсолютизировать параметры регрессионных уравнений, меры корреляции было бы ошибкой, так же как и отказаться от использования этих мер.

Поскольку корреляционная связь является статистической, первым условием возможности ее изучения является общее условие всякого статистического исследования: наличие данных по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию). Например, сравнивая два хозяйства, одно из которых имеет лучшее качество почв, по уровню урожайности, можно обнаружить, что урожайность выше в хозяйстве с худшими почвами. Ведь урожайность зависит от сотен факторов и при том же самом качестве почв может быть и выше, и ниже. Но если сравнивать большое число хозяйств с лучшими почвами и большое число - с худшими, то средняя урожайность в первой группе окажется выше и станет возможным измерить достаточно точно параметры корреляционной связи.

Какое именно число явлений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше - не менее чем в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.

Вторым условием закономерного проявления корреляционной связи служит условие, обеспечивающее надежное выражение закономерности в средней величине. Кроме уже указанного большого числа единиц совокупности для этого необходима достаточная качественная однородность совокупности. Нарушение этого условия может извратить параметры корреляции. Например, в массе зерновых хозяйств уровень продукции с гектара растет по мере концентрации площадей, т.е. он выше в крупных хозяйствах. В массе овощных и овоще-молочных хозяйств (пригородный тип) наблюдается та же прямая связь уровня продукции с размером хозяйства. Но если соединить в общую неоднородную совокупность те и другие хозяйства, то связь уровня продукции с размером площади пашни (или посевной площади) получится обратной. Причина в том, что овощные и овоще-молочные хозяйства, имея меньшую площадь, чем зерновые, производят больше продукции с гектара ввиду большей интенсивности производства в данных отраслях, чем в производстве зерна.

Иногда как условие корреляционного анализа выдвигают необходимость подчинения распределения совокупности по результативному и факторным признакам нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов при расчете параметров корреляции: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты.

Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятностей или распределения Стьюдента.

Еще одним спорным вопросом является допустимость применения корреляционного анализа к функционально связанным признакам. Можно ли, например, построить уравнение корреляционной зависимости размеров выручки от продажи картофеля, от объема продажи и цены? Ведь произведение объема продажи и цены равно выручке в каждом отдельном случае. Как правило, к таким жестко Детерминированным связям применяют только индексный метод анализа. Однако на этот вопрос можно взглянуть и с другой точки зрения. При индексном анализе выручки предполагается, что количество проданного картофеля и его цена независимы друг от друга, потому-то и допустима абстракция от изменения одного фактора при измерении влияния другого, как это принято в индексном методе. В реальности количество и цена не являются вполне независимыми друг от друга.

Корреляционно-регрессионный анализ учитывает межфакторные связи, следовательно, дает нам более полное измерение роли каждого фактора: прямое, непосредственное его влияние на результативный признак; косвенное влияние фактора через его влияние на другие факторы; влияние всех факторов на результативный признак. Если связь между факторами несущественна, индексным анализом можно ограничиться. В противном случае его полезно дополнить корреляционно-регрессионным измерением влияния факторов, даже если они функционально связаны с результативным признаком.

 


Дата добавления: 2019-07-15; просмотров: 174; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!