7.Статистическое изучение вариации социально-экономических явлений

Рефераты по маркетингу » 7.Статистическое изучение вариации социально-экономических явлений
Статистическое изучение вариации социально-

экономических явлений

1.7.1 Понятие вариации

Вариация – это многообразие колеблемость изменяемость величины признака у единиц статистической совокупности. Вариация порождается комплексом условий действующих на совокупность и ее единицы. Например вариация доходов получаемых гражданами порождается различными социальными и экономическими причинами однако если бы все граждане имели одинаковые доходы то необходимость в статистическом исследовании отпала бы. Отсюда следует что именно вариация и предопределяет необходимость статистики.

Исследование вариации в статистике и социально-экономических исследованиях имеет большое значение делая возможным установление разброса или вариации значений отдельных единиц совокупности например какие факторы и в какой степени влияют на курс акций объем ВВП объемы спроса и предложения процентные ставки финансовое положение предприятий и т.д. Определение вариации необходимо при организации выборочного наблюдения построении статистических моделей разработке материалов экспертных опросов и во многих других случаях.

По степени вариации можно судить о многих сторонах процесса развития изучаемых явлений в частности об однородности совокупности устойчивости индивидуальных значений признака типичности средней о взаимосвязи между признаками одного и того же явления и признаками разных явлений.

Вариация существует во времени и в пространстве. Под вариацией во времени подразумевают изменение значений признака в различные моменты времени (срок службы товаров длительного пользования средняя продолжительность жизни мнения людей и т.д.). Под вариацией в пространстве понимается колеблемость значений признака по отдельным территориям.

Наличие вариации в признаках изучаемых явлений ставит перед статистикой задачи ее исследования: определение меры вариации ее измерение нахождение соответствующих измерителей показателей характеризующих ее размеры выявление их сущности и методов вычисления факторов ее определяющих.

Статистические показатели характеризующие вариацию широко применяются в практической деятельности. На основе показателей вариации в статистике разрабатываются другие показатели и методы изучения явлений и процессов общественной жизни – показатели тесноты связи между явлениями и их признаками показатели оценки точности выборочного наблюдения и т.д.


1.7.2 Показатели вариации

Показатели вариации делятся на две группы: абсолютные и относительные. К абсолютным показателям вариации относятся:

размах вариации;

среднее линейное отклонение;

дисперсия;

среднее квадратическое отклонение.

Относительными показателями вариации являются:

относительное линейное отклонение;

коэффициент вариации и др.

Для иллюстрации расчетов этих показателей воспользуемся следующими данными:

Таблица 1.7.1

Распределение работников отрасли по

уровню заработной платы

Заработная плата одного работника, тыс. руб.

Количество работников,

% к итогу

до 3 13,2
3 – 5 28,6
5 – 7,5 24,9
7,5 – 10 13,6
10 – 15 12,2
15 – 25 5,7
25 – 30 1,8
Итого: 100

Самым простым показателем уже использованным выше при группировке данных является размах вариации. Он представляет собой разность максимального и минимального значений признака:

R = =30 – 0 = 30 тыс. руб. (1.7.1)

Недостатком данного показателя является то что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ. Для анализа вариации необходим и показатель который отражает все колебания варьирующего признака дающий обобщенную ее характеристику. В качестве такой величины можно условно принять среднюю величину из всех значений признака так как в ней более или менее погашаются случайные отклонения от закономерного хода развития явления и средняя тем самым отражает типичный размер признака у данной однородной совокупности единиц.

Такая средняя называется средним линейным отклонением ().Оно вычисляется как средняя арифметическая из абсолютных значений отклонений вариант х и (взвешенная или простая в зависимости от исходных условий) по следующим формулам:

(1.7.2) – простая формула;

(1.7.3) – взвешенная формула;

По данным нашего примера определим среднее линейное отклонение построив для удобства расчетов вспомогательную табл. 1.7.2.

1) находим середины интервалов () по исходным данным (гр. 1) и записываем их в таблицу (гр. 3);

2) определим произведения значений середин интервалов () на соответствующие им веса (f) (гр. 4). В итоге получаем 7248 3. Рассчитаем среднюю величину по формуле средней арифметической взвешенной:

Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формулам простой и взвешенной дисперсий (в зависимости от исходных данных):

(1.7.4) – простая формула;

(1.7.5) – взвешенная формула;

Среднее квадратическое отклонение определяется как квадратный корень из дисперсии и имеет ту же размеренность что и изучаемый признак:

(1.7.6) – простая формула;

(1.7.7) – взвешенная формула;

Рассмотренные показатели позволяют получить абсолютное значение вариации т.е. оценивают ее в единицах измерения исследуемого признака. В отличие от них относительное линейное отклонение и коэффициент вариацииизмеряет колеблемость в относительном выражении относительно среднего уровня что во многих случаях является предпочтительнее.

Относительное линейное отклонение ():

(1.7.8)


Определим значение этого показателя по нашим данным:


=3 87/ 7 25*100=53 4%


Коэффициент вариации ():

(1.7.9)

Определим значение коэффициента вариации по нашим данным:


=5 3/ 7 25*100=73 1%

Рассчитанная величина свидетельствует о значительном относительном уровне колеблемости признака. Если превышает 33% то совокупность по рассматриваемому признаку можно считать неоднородной.


Следует отметить что дисперсию используют не только для оценки вариации но и при измерении взаимосвязей для проверки статистических гипотез и т.п.

Дисперсия может быть рассчитана и по упрощенной формуле:


(1.7.10)


Как и любая средняя дисперсия имеет определенные математические свойства:

а) если все значения признака х уменьшить (увеличить) на определенную величину дисперсия не изменится;

б) если все значения признака изменить в k раз то дисперсия изменится в k раз;

в) в случае замены частот частостями дисперсия не изменится.


Статистическое изучение вариации многих социально-экономических явлений проводится и при помощи дисперсии альтернативного признака вариация которого имеет два взаимоисключающих значения – «1» (наличие данного признака) и «0» (отсутствие его) долю вариантов обладающих данным признаком р и не обладающих им q. Так как ряд р + q = 1 то средняя а дисперсия альтернативного признака где n – число наблюдений m – число единиц совокупности обладающее данным признаком q = 1- р. Отсюда дисперсию доли альтернативного признака можно выразить следующим образом:

(1.7.11)

Виды дисперсий и методы их расчета

Для совокупности сгруппированной по определенному признаку можно рассчитать три вида дисперсий:

внутригрупповую дисперсию;

межгрупповую дисперсию;

общую дисперсию.

Внутригрупповая дисперсия оценивает колеблемость значения индивидуального признака внутри группы. Эта вариация возникает под влиянием неучтенных факторов и не зависит от признака положенного в основу группировки. Она исчисляется следующим образом:

(1.7.12)

где - средняя по изучаемой группе (групповая средняя).

Средняя из внутригрупповых дисперсий отражает ту часть вариации результативного признака которая обусловлена действием всех прочих неучтенных факторов кроме фактора по которому осуществлялась группировка. Средняя из внутригрупповых дисперсий определяется по формуле арифметической взвешенной:


(1.7.13)


Межгрупповая дисперсия отражает ту часть вариации результативного признака которая обусловлена воздействием признака факторного. Это воздействие проявляется в отклонении групповых средних от общей средней:


(1.7.14)


Общая дисперсия оценивает вариацию изучаемого признака возникающего под влиянием всех факторов.

Между рассматриваемыми видами дисперсий существует определенная взаимосвязь которая называется правилом сложения дисперсий:

(1.7.15)


Согласно правилу сложения дисперсий общая дисперсия возникающая под влиянием всех факторов равна сумме дисперсий возникающих под влиянием всех прочих факторов и дисперсии возникающей за счет группировочного признака.

Зная любые два вида дисперсий можно определить или проверить правильность расчета третьего вида.

На основании правила сложения дисперсий можно измерить тесноту связи между группировочным (факторным) и результативным признаками. Для этого рассчитывается:

1) коэффициент детерминации:


(1.7.16)


Коэффициент детерминации показывает какая доля вариации результативного признака объясняется вариацией признака фактора положенного в основу группировки.

2) эмпирическое корреляционное отношение:


(1.7.17)


Величина показателя изменяется в пределах от 0 до 1. Чем ближе к 1 тем сильнее взаимосвязь между рассматриваемыми признаками.

Наряду с вариацией индивидуальных значений признака вокруг средней может наблюдаться и вариация индивидуальных долей признака вокруг средней доли. Для анализа этой вариации вычисляются следующие виды дисперсий.

Внутригрупповая дисперсия доли определяется по следующей формуле:

(1.7.18)


Средняя из внутригрупповых дисперсий:


(1.7.19)


Межгрупповая дисперсия:


(1.7.20)


где - численность единиц в отдельных группах;

- доля изучаемого признака во всей совокупности которая определяется по следующей формуле:


(1.7.21)


Общая дисперсия имеет вид:


(1.7.22)


Три вида дисперсии связаны между собой следующим образом:


(1.7.23)


Данная взаимосвязь дисперсий называется теоремой сложения дисперсии доли признака. Эта теорема широко используется в изучении колеблемости качественных признаков.

Выборочное наблюдение

1.8.1 Понятие о выборочном наблюдении

В настоящее время в условиях рыночных отношений в России находит все более широкое применение наиболее совершенный и научно обоснованный способ несплошного наблюдения – выборочное наблюдение которое используется в работе органов государственной статистики научно-исследовательских лабораторий и предприятий. Выборочное наблюдение позволяет лучше организовать наблюдение обеспечивает быстроту проведения экономию труда и средств на получение и обработку информации.

Под выборочным наблюдением понимается несплошное наблюдение при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу – по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и научно организованной работы по отбору единиц.

Совокупность из которой отбираются элементы для обследования называют генеральной а совокупность которую непосредственно обследуют – выборочной (выборка).Статистические характеристики выборочной совокупности рассматриваются как оценкисоответствующих характеристик генеральной совокупности. Поскольку выборочная совокупность неточно воспроизводит структуру генеральной то выборочные оценки также не совпадают с характеристиками генеральной совокупности. Различия между ними называют ошибками выборки.

Как и сама выборочная характеристика ошибка выборки является случайной величиной и зависит:

от степени вариации изучаемого признака;

от численности выборочной совокупности;

от способа формирования выборочной совокупности;

от принятого уровня достоверности результата исследования.

Достоверность рассчитанных по выборочным данным характеристик в значительной степени определяется репрезентативностью выборочной совокупности которая в свою очередь зависит от способа отбора единиц из генеральной совокупности. В каждом конкретном случае в зависимости от целого ряда условий а именно сущности исследуемого явления объема совокупности вариации и распределения наблюдаемых признаков материальных и трудовых ресурсов выбирают наиболее предпочтительную систему организации отбора которая определяется видом методом и способом отбора.


По виду различают индивидуальный групповой и комбинированный отбор. При индивидуальном отборе в выборочную совокупность отбираются отдельные единицы генеральной совокупности при групповом отборе – группы единиц а комбинированный отбор предполагает сочетание группового и индивидуального отбора.

Метод отбора определяет возможность продолжения участия отобранной единицы в процедуре отбора. Различают повторный и бесповторный способы отбора при формировании выборки.

При повторном отборе численность генеральной совокупности на каждом этапе отбора не изменяется (попавшая в выборку единица после регистрации наблюдаемых признаков возвращается в генеральную совокупность для участия в дальнейшей процедуре отбора) и вероятность отбора каждой единицы остается постоянной.

При бесповторном отборе вероятность попадания каждой единицы в выборку увеличивается по мере процедуры отбора (попавшая в выборку единица не возвращается в совокупность из которой осуществляется дальнейший отбор).


1.8.2 Способы формирования выборочной совокупности

Способ отбора определяет конкретный механизм или процедуру выборки единиц из генеральной совокупности. В практике выборочных обследований наибольшее распространение получили следующие выборки:

собственно-случайная;

механическая;

типическая;

серийная;

многоступенчатая;

многофазная.

Собственно-случайная выборка заключается в отборе единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности. Однако прежде чем производить собственно-случайный отбор необходимо убедиться что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку в списках или перечне отсутствуют пропуски игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной совокупности таким образом чтобы включение или невключение в нее отдельных единиц не вызывало сомнений.

Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел. Для жеребьевки необходимо подготовить достаточное количество жребиев – фишек шаров карточек соответствующее объему генеральной совокупности. Каждый жребий должен содержать информацию об отдельной единице совокупности – номер фамилию лица или адрес название или какой-либо другой отличительный признак. Необходимое в соответствии с установленным процентом отбора количество жребиев извлекается из общей их совокупности в случайном порядке.

При отборе по таблицам случайных чисел каждая единица генеральной совокупности должна иметь порядковый номер. Таблицы случайных чисел получаются с помощью датчика случайных чисел на ПК и представляют собой абсолютно произвольные столбцы цифр. В соответствии с объектом генеральной совокупности выбирается любой столбец с числами необходимой значимости. Например если генеральная совокупность включает 5000 единиц потребуются четырехзначные столбцы при этом числа больше 5000 не будут приниматься во внимание. В выборочную совокупность отбираются единицы с порядковыми номерами соответствующими числам выбранного столбца.

Собственно-случайный отбор может быть как повторным так и бесповторным. Для проведения бесповторного отбора в процессе жеребьевки выпавшие жребии обратно в исходную совокупность не возвращаются и в дальнейшем отборе не участвуют. При использовании таблиц случайных чисел бесповторность отбора достигается пропуском чисел в случае их повторения в выбранном столбце или столбцах. После проведения отбора для определения возможных границ генеральных характеристик рассчитываются средняя и предельная ошибки выборки. Формулы расчета ошибок выборки и основные характеристики параметров генеральной и выборочной совокупности представлены в таблице 1.8.1.

Как видно из формул (табл. 1.8.1) размер предельной ошибки зависит от вариации признака объема выборки n и ее доли в генеральной совокупности а также принятого уровня вероятности (р) которому соответствует коэффициент кратности t. Так t=1 для вероятности 0 683; t=2 для вероятности 0 954; t=3 для вероятности 0 997.

Расчет средней и предельной ошибок выборки позволяет определить возможные пределы в которых будут находиться характеристики генеральной совокупности. Например для генеральной средней такие пределы устанавливаются на основе следующих соотношений: (1.8.1)

(1.8.2)

где и - генеральная и выборочная средняя соответственно;

- предельная ошибка генеральной средней.


Доверительные интервалы для генеральной доли:


(1.8.3)

(1.8.4)


Таблица 1.8.1

Формулы расчета ошибок выборки и основные характеристики

параметров генеральной и выборочной совокупности


Способ отбора единиц Характеристики
повторный бесповторный объем сово-куп-ности

доля

еди-

ниц

средний

размер

приз-

нака

Средняя

ошибка

():

для

средней


для

доли


Преде-льная

ошибка

():

для

средней


для

доли









Генеральная совокупность

N



Выборочная совокупность
n


Механическая выборка применяется в случаях когда генеральная совокупность каким-либо образом упорядочена т.е. имеется определенная последовательность в расположении единиц (табельные номера работников списки избирателей телефонные номера респондентов номера домов и квартир и т.п.).

Отбор элементов осуществляется через одинаковые интервалы шаг интервала зависит от доли выборки. Так при = 0 05 шаг интервала составляет = 20. Ошибка механической выборки вычисляется по формуле бесповторной выборки. Для моментных наблюдений фиксирующих состояние непрерывного процесса на определенные моменты времени используют формулу ошибки повторной выборки.

При типическом отборе генеральная совокупность разбивается на несколько типических групп по существенному признаку. При обследовании населения такими группами могут быть например районы социальные возрастные или образовательные группы при обследовании предприятий – отрасль или подотрасль форма собственности и т.п. Затем из каждой группы путем собственно-случайного или механического отбора отбираются единицы в выборочную совокупность.


При вычислении ошибки типической выборки используют среднюю из групповых дисперсий:

для средней: (1.8.5);

для доли: (1.8.6)


Средняя ошибка типической выборки определяется следующим образом:

для средней: (1.8.7);

для доли: (1.8.8)

Как правило < следовательно ошибка типической выборки меньше чем механической или простой случайной. Чаще всего используют отбор пропорциональный численности составляющих совокупности т. е. доля выборки для всех составляющих одинакова.

Серийный отбор удобен в тех случаях когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться районы поселки фирмы акционерные общества студенческие группы бригады а также упаковки с определенным количеством готовой продукции партии товара и т.д. Сущность серийной выборки заключается в собственно-случайном или механическом отборе серий внутри которых производится сплошное обследование единиц.

Поскольку внутри групп (серий) обследуются все без исключения единицы средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (межсерийной) дисперсии и определяется по следующим формулам:

-повторный отбор (1.8.9);


- бесповторный отбор (1.8.10)


где r – число отобранных серий;

R – общее число серий.


Межгрупповую дисперсию вычисляют следующим образом:

(1.8.11)

где - средняя i-й серии;

- общая средняя по всей выборочной совокупности.


При серийном отборе ошибка будет меньше чем при механическом отборе.

Многоступенчатая выборка предполагает извлечение из генеральной совокупности сначала укрупненных групп единиц затем групп меньших по объему и так до тех пор пока не будут отобраны те группы (серии) или отдельные единицы которые будут подвергнуты наблюдению. Выборка может быть двухступенчатой когда генеральная совокупность разбивается на группы и производится отбор групп а затем внутри групп – отбор единиц наблюдения. На обеих ступенях отбор может вестись в случайном порядке. В этом случае ошибка рассчитывается следующим образом:


(1.8.12)


В отличие от типического отбора где отбор производится из всех без исключения групп при многоступенчатом отборе производится отбор самих групп и следовательно не все они попадают в выборку.

Число ступеней отбора может быть и более трех. Если число ступеней отбора больше двух то средняя ошибка выборки определяется по формуле:

(1.8.13)

где - средние ошибки выборки на отдельных ступенях отбора;

- численность выборок на соответствующих ступенях.

Многофазная выборка отличается от многоступенчатой тем что на каждой стадии сохраняется одна и та же единица отбора но изменяется программа наблюдения. Причем расширенная программа обязательно содержит вопросы краткой программы что делает возможным проверить репрезентативность выборки. Расчет ошибки многофазной выборки производится для каждой фазы в отдельности.


1.8.3 Определение необходимого объема выборки

В практике проектирования выборочного наблюдения возникает вопрос о необходимой численности выборки которая необходима для обеспечения определенной точности расчета генеральных характеристик – средней и доли. Эта численность может быть определена на базе допустимой ошибки при выборочном наблюдении исходя из вероятности на основе которой можно гарантировать величину устанавливаемой ошибки и наконец на базе способа отбора.

Формулы необходимого объема выборки для различных способов формирования выборочной совокупности могут быть выведены из соответствующих соотношений используемых при расчете предельных ошибок выборки.

При случайном повторном отборе численность выборки определяется по формуле:

(1.8.14)


При случайном бесповторном и механическом отборе численность выборки вычисляется по формуле:


(1.8.15)


Для типической выборки:

- повторный отбор (1.8.16);


- бесповторный отбор (1.8.17)


Для серийной выборки:


- повторный отбор (1.8.18);


- бесповторный отбор (1.8.19)


При этом в зависимости от целей исследования дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.


Основные вопросы решаемые при расчете численности выборки:

1)необходимо принять решение о размере допустимой погрешности;

2)коэффициент кратности t определяется согласно принятой вероятности результата исследований;

3)в приведенных формулах вместо фактических значений дисперсии и доли используются приблизительные значения полученные на основе ранее проводимых исследований либо на основе пробных выборок.

4)если планируется выборка для исследования доли альтернативного признака то в формулы подставляется максимально возможное значение дисперсии;

5)расчет численности выборки производится несколько раз исходя из требований точности для всех изучаемых признаков. В качестве окончательного решения выбирается наибольшее из полученных значений;

6)если полученные значения n различаются в 6 7 и более раз то выборка организуется как многоступенчатая;

7)если объем генеральной совокупности достаточно велик (более 100 тыс.) то используются формулы для повторного отбора независимо от типа планируемой выборки.

9 Статистические методы изучения взаимосвязей

социально-экономических явлений

1.9.1 Причинность регрессия корреляция

Исследование объективно существующих зависимостей и взаимосвязей между явлениями и процессами - важнейшая задача теории статистики которая играет в экономике значительную роль и позволяет глубже понять сложный механизм причинно-следственных отношений между явлениями. Причинно-следственные отношения - это такая связь явлений и процессов когда изменение одного из них - причины ведет к изменению другого - следствия.

Все социально-экономические явления взаимосвязаны и представляют собой результат одновременного воздействия большого числа причин. Следовательно при изучении этих явлений необходимо выявлять главные основные причины абстрагируясь от второстепенных.

Признаки по их значению для изучения взаимосвязи делятся на два класса. Признаки характеризующие причины и условия связи называются факторными (х) а признаки которые характеризуют следствия связи – результативными (у).

Между признаками х и у возникают разные по природе и характеру связи а именно: функциональные и стохастические. При функциональной связикаждому значению признака х соответствует одно определенное значение у. Эта связь проявляется однозначно в каждом отдельном случае. При стохастической связи каждому значению признака х соответствует определенное множество значений у образующих так называемое условное распределение.Как закон эта связь проявляется только в массе случаев и характеризуется изменением условных распределений у. Если заменить условное распределение средней величиной то образуется разновидность стохастической связи – корреляционная.В случае корреляционной связи каждому значению признака х соответствует среднее значение результативного признака .

Связи между явлениями и их признаками классифицируются:

по степени тесноты;

по направлению;

по аналитическому выражению.

По степени тесноты связи представлены в таблице 1.9.1.

По направлению выделяют:

Прямую связь - это такая связь при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Так например рост производительности труда способствует увеличению уровня рентабельности производства.


Обратную связь – это такая связь при которой значения результативного признака изменяются под воздействием факторного но в противоположном направлении по сравнению с изменением факторного признака. Так с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.


Таблица 1.9.1

Количественные критерии оценки тесноты связи

Величина коэффициента корреляции Характер связи
до ±0,3 практически отсутствует
±0,3 - ±0,5 слабая
±0,5 - ±0,7 умеренная
±0,7 - ±1,0 сильная

По аналитическому выражению выделяют связи:

прямолинейные (или просто линейные);

нелинейные.

Если статистическая связь между явлениями может быть приблизительно выражена уравнением прямой линии то ее называют линейной связью вида:


(1.9.1)


Если же связь может быть выражена уравнением какой-либо кривой линии например параболы то такую связь называют нелинейной или криволинейной:


(1.9.2)


Для выявления наличия связи ее характера и направления в статистике используются методы:

приведения параллельных данных;

аналитических группировок;

графический;

корреляции.

Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменение двух величин:


X 1 2 3 4 5 6 7 8 9
Y 5 9 6 10 14 17 15 20 23

Мы видим что с увеличением величины X величина Y также возрастает. Можно сделать предположение что связь между ними прямая и что ее можно описать или уравнением прямой или уравнением параболы второго порядка.

Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака а на оси ординат - результативного.

Каждое пересечение линий проводимых через эти оси обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками тем теснее будут группироваться точки вокруг определенной линии выражающей форму связи.

Корреляция - это статистическая зависимость между случайными величинами не имеющая строго функционального характера при которой изменение одной из случайных величин приводит к изменению среднего значения другой.

Варианты корреляционной зависимости:

1) парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными).

2) частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3) множественная корреляция - зависимость результативного и двух или более факторных признаков включенных в исследование.

Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции которые давая количественную характеристику тесноты связи между признаками позволяют определять «полезность» факторных признаков при построении уравнения множественной регрессии.

Регрессия тесно связана с корреляцией: первая оценивает силу (тесноту) статистической связи вторая исследует ее форму.

Регрессионный анализ заключается в определении аналитического выражения связи в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов).

Одной из проблем построения уравнений регрессии является их размерность то есть определение числа факторных признаков включаемых в модель. Их число должно быть оптимальным.

Сокращение размерности за счет исключения второстепенных несущественных факторов позволяет получить модель быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому что она будет недостаточно полно описывать исследуемое явление или процесс.

При построении моделей регрессии должны соблюдаться

следующие требования:

1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.

2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.

3. Все факторные признаки должны иметь количественное (цифровое) выражение.

4. Наличие достаточно большого объема исследуемой выборочной совокупности.

5. Причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной форме зависимостью.

6. Отсутствие количественных ограничений на параметры модели связи.

7. Постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель наилучшим образом описывающую реальные явления и процессы.


Парная регрессия на основе метода наименьших

квадратов и метода группировок

Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями:


прямой


гиперболы


параболы (1.9.3)


показательной функции


полулогарифметической функции и так далее.


Определить тип уравнения можно исследуя зависимость графически однако существуют более общие указания позволяющие выявить уравнение связи не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково то это свидетельствует о том что связь между ними линейная а при обратной связи - гиперболическая. Если результативный признак увеличивается в арифметической прогрессии а факторный значительно быстрее то используется параболическая или степенная регрессия.

Оценка параметров уравнений регрессии ( и - в уравнении параболы второго порядка) осуществляется методом наименьших квадратов в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели () при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических полученных по выбранному уравнению регрессии:


(1.9.4)


Система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:


(1.9.5)


где n - объем исследуемой совокупности (число единиц наблюдения).


В уравнениях регрессии параметр a показывает усредненное влияние на результативный признак неучтенных в уравнении факторных признаков; коэффициент регрессии a показывает на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

Множественная (многофакторная) регрессия

Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии:


(1.9.6)


Построение моделей множественной регрессии включает несколько этапов:

1. Выбор формы связи (уравнения регрессии);

2. Отбор факторных признаков;

3. Обеспечение достаточного объема совокупности.

Выбор типа уравнения затрудняется тем что для любой формы зависимости можно выбрать целый ряд уравнений которые в определенной степени будут описывать эти связи. Основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.

Важным этапом построения уже выбранного уравнения множественной регрессии является отбор и последующее включение факторных признаков.

С одной стороны чем больше факторных признаков включено в уравнение тем оно лучше описывает явление. Однако модель размерностью 100 и более факторных признаков сложно реализуема и требует больших затрат машинного времени. Сокращение размерности модели за счет исключения второстепенных экономически и статистически несущественных факторов способствует простоте и качеству ее реализации. В то же время построение модели регрессии малой размерности может привести к тому что такая модель будет недостаточно адекватна исследуемым явлениям и процессам.

Проблема отбора факторных признаков для построения моделей взаимосвязи может быть решена на основе интуитивно-логических или многомерных статистических методов анализа.

Наиболее приемлемым способом отбора факторных признаков является шаговая регрессия (шаговый регрессионный анализ). Сущность метода шаговой регрессии заключается в последовательном включении факторов в уравнение регрессии и последующей проверке их значимости. Факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости введенного фактора определяется на сколько уменьшается сумма квадратов остатков и увеличивается величина множественного коэффициента корреляции (R). Одновременно используется и обратный метод то есть исключение факторов ставших незначимыми. Фактор является незначимым если его включение в уравнение регрессии только изменяет значения коэффициентов регрессии не уменьшая суммы квадратов остатков и не увеличивая их значения. Если при включении в модель соответствующего факторного признака величина множественного коэффициента корреляции увеличивается а коэффициента регрессии не изменяется (или меняется несущественно) то данный признак существенен и его включение в уравнение регрессии необходимо. В противном случае фактор нецелесообразно включать в модель регрессии.

При построении модели регрессии возможна проблема мультиколлинеарности под которой понимается тесная зависимость между факторными признаками включенными в модель (> 0 8).

Наличие мультиколлинеарности между признаками приводит к:

искажению величины параметров модели которые имеют тенденцию к завышению чем осложняется процесс определения наиболее существенных факторных признаков;

изменению смысла экономической интерпретации коэффициентов регрессии.


В качестве причин возникновения мультиколлинеарности между признаками можно выделить следующие:

изучаемые факторные признаки являются характеристикой одной и той же стороны явления или процесса. Например: показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется так как они оба характеризуют размер предприятия;

факторные признаки являются составляющими элементами друг друга;

факторные признаки по экономическому смыслу дублируют друг друга.


Устранение мультиколлинеарности может реализовываться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков или преобразование исходных факторных признаков в новые укрупненные факторы.

Вопрос о том какой из факторов следует отбросить решается на основании качественного и логического анализа изучаемого явления.

Качество уравнения регрессии зависит от степени достоверности и надежности исходных данных и объема совокупности. Исследователь должен стремиться к увеличению числа наблюдений так как большой объем наблюдений является одной из предпосылок построения адекватных статистических моделей.

Аналитическая форма связи результативного признака от ряда факторных выражается и называется многофакторным (множественным) уравнением регрессии или моделью связи.


Линейное уравнение множественной регрессии имеет вид:


(1.9.7)


где - теоретические значения результативного признака полученные в результате подстановки соответствующих значений факторных признаков в уравнение регрессии;

- факторные признаки;

- параметры модели (коэффициенты регрессии).


Параметры уравнения могут быть определены графическим методом методом наименьших квадратов и так далее.


1.9.4 Собственно-корреляционные параметрические методы изучения связи

Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака от одного (при изучении парных зависимостей) или нескольких (множественных) факторных.

Линейный коэффициент корреляции характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента:


(1.9.8)


Производя расчет по итоговым значениям исходных переменных линейный коэффициент корреляции можно вычислить по формуле:


(1.9.9)


Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость выражаемая формулой:


(1.9.10)

где a - коэффициент регрессии в уравнении связи;

- среднеквадратическое отклонение соответствующего статистически существенного факторного признака.


Линейный коэффициент корреляции изменяется в пределах от -1 до 1: . Знаки коэффициентов регрессии и корреляции совпадают.


При этом интерпретацию выходных значений коэффициента корреляции можно представить в следующей таблице 1.9.3:


Таблица 1.9.3

Оценка линейного коэффициента корреляции

Значение линейного

коэффициента связи

Характер

связи

Интерпретация связи


r = 0 отсутствует -
0<r<1 прямая с увеличением x увеличивается y
-1<r<0 обратная с увеличением x уменьшается y и наоборот
r=1 функциональная каждому значению факторного признака строго соответствует одно значение результативного признака

Пример. По исходным данным представленным в таблице 1.9.2 оценим тесноту связи с помощью коэффициента корреляции (см. табл. 1.9.4).

Таблица 1.9.4

Расчетная таблица для определения

коэффициента корреляции

№ п/п x y

1

2

3

4

5

6

7

8

9

10

5

4

7

10

1

2

8

12

3

6

10,2

7,5

13,9

12,8

0,6

2,8

13,2

10,1

5,4

12,7

51

30

97,3

128

0,6

5,6

105,6

121,2

16,2

76,2

25

16

49

100

1

4

64

144

9

36

104,04

56,25

193,21

163,84

0,36

7,84

174,24

102,01

29,16

161,29

Сумма 58 89,2 631,7 448 992,24
Средняя 5,8 8,92 63,17 44,8 99,224

1. Используя формулу (1.9.8) получаем:




2. По формуле (1.9.9) значение коэффициента корреляции составило:



Таким образом результат по всем формулам одинаков и свидетельствует о сильной прямой зависимости между изучаемыми признаками.

В случае наличия нелинейной зависимости между двумя признаками для измерения тесноты связи применяют теоретическое корреляционное отношение:


(1.9.11)

где - дисперсия выравненных значений результативного признака то есть рассчитанных по уравнению регрессии;

- дисперсия эмпирических (фактических) значений результативного признака.


Для оценки тесноты связи также рассчитывается коэффициент детерминации:

(1.9.12)


Коэффициент детерминации показывает какая доля вариации результативного признака объясняется вариацией изучаемого фактора х.


Корреляционное отношение () изменяется в пределах от 0 до 1 () и анализ степени тесноты связи полностью соответствует линейному коэффициенту корреляции (таблица 1.9.1).

Для измерения тесноты связи при множественной корреляционной зависимости то есть при исследовании трех и более признаков одновременно вычисляется множественный и частные коэффициенты корреляции.

Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативным и несколькими факторными признаками а также между каждой парой факторных признаков. Множественный коэффициент корреляции для двух факторных признаков вычисляется по формуле:


(1.9.13)


где - парные коэффициенты корреляции между признаками.


Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: .

Приближение R к единице свидетельствует о сильной зависимости между признаками.

Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками x и x при фиксированном значении других (k − 2) факторных признаков то есть когда влияние x исключается то есть оценивается связь между x и x в «чистом виде».

В случае зависимости y от двух факторных признаков x и x коэффициенты частной корреляции имеют вид:


(1.9.14)


где r - парные коэффициенты корреляции между указанными в индексе переменными.


В первом случае исключено влияние факторного признака x во втором - x. Эти показатели могут быть и отрицательными так как они показывают какая существует связь между признаками: прямая или обратная.


1.9.5 Принятие решений на основе уравнений регрессии

Интерпретация моделей регрессии осуществляется методами той отрасли знаний к которой относится исследуемое явление. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков.

Чем больше величина коэффициента регрессии тем значительнее влияние данного признака на моделируемый.

Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет знак плюс то с увеличением данного фактора результативный признак возрастает; если факторный признак имеет знак минус то с его увеличением результативный признак уменьшается.

Если экономическая теория подсказывает что факторный признак должен иметь положительное значение а он имеет знак минус то необходимо проверить расчеты параметров уравнения регрессии. Такое явление чаще всего бывает в силу допущенных ошибок при решении. Однако следует иметь в виду что когда рассматривается совокупное влияние факторов то в силу наличия взаимосвязей между ними характер их влияния может меняться.

С целью расширения возможностей экономического анализа используются частные коэффициенты эластичности определяемые по формуле:

(1.9.15)

где - среднее значение соответствующего факторного признака;

- среднее значение результативного признака;

- коэффициент регрессии при соответствующем факторном признаке.


Коэффициент эластичности показывает на сколько процентов в среднем изменится значение результативного признака при изменении соответствующего факторного признака на 1% при исключении влияния других факторов учтенных в модели.


Частный коэффициент детерминации:


(1.9.16)


где - парный коэффициент корреляции между результативным и i-ым факторным признаком;

- соответствующий стандартизованный коэффициент уравнения множественной регрессии:

(1.9.17)

Частный коэффициент детерминации показывает на сколько процентов вариация результативного признака объясняется вариацией i-го признака входящего в множественное уравнение регрессии.

Наиболее полная экономическая интерпретация моделей регрессии позволяет выявить резервы развития и повышения деловой активности субъектов экономики.


1.9.6 Методы изучения связи качественных признаков

При наличии соотношения между вариацией качественных признаков говорят об их ассоциации взаимосвязанности. Для оценки связи в этом случае используют ряд показателей.

Коэффициент ассоциации и контингенции. Для определения тесноты связи двух качественных признаков каждый из которых состоит только из двух групп применяются коэффициенты ассоциации и контингенции.

Для их вычисления строится таблица которая показывает связь между двумя явлениями каждое из которых должно быть альтернативным то есть состоящим из двух качественно отличных друг от друга значений признака (например хороший плохой).

Таблица 1.9.5

Таблица для вычисления коэффициентов

ассоциации и контингенции

у

х

0 1 Итого
0 a b a+b
1 c d c+d
Итого a+c b+d N

Коэффициенты вычисляются по формулам:


ассоциации: (1.9.18)


контингенции: (1.9.19)


Причем всегда коэффициент контингенции меньше коэффициента ассоциации (>).

Связь считается подтвержденной если 0 5 или 0 3.

Когда каждый из качественных признаков состоит более чем из двух групп то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова. Эти коэффициенты вычисляются по следующим формулам:


коэффициент Пирсона: (1.9.20);


коэффициент Чупрова: (1.9.21)

где - показатель взаимной сопряженности;

- определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки. Вычитая из этой суммы «1» получим величину : ;

K - число значений (групп) первого признака;

K - число значений (групп) второго признака.


Чем ближе величина коэффициента Пирсона и коэффициента Чупрова к 1 тем теснее связь.


Таблица 1.9.7

Вспомогательная таблица для расчета коэффициента

взаимной сопряженности

у

х

I II III Итого

I

II

III



Итого


n

(1.9.22)

Ранговые коэффициенты связи

Исследуя экономику необходимо считаться с взаимосвязью наблюдаемых показателей и величин. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенной из них а также воздействия одних факторов на другие является одной из основных задач статистики. Формы проявления взаимосвязей разнообразны. Одна из основных форм корреляционная (неполная статистическая) связь.

Задачи корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Ранжирование - упорядочение единиц совокупности по значению признака.

При ранжировании каждой единице совокупности присваивается ранг.


Ранг - этопорядковый номер значений признака расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку то ранг всех этих значений принимается равным средней арифметической из соответствующих номеров мест которые определяют. Данные ранги называются связными.

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена () и Кендалла (τ). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными так и между качественными признаками.

Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле:

(1.9.23)


d – разность рангов признаков Х и Y;

n – число наблюдаемых единиц.


В случае отсутствия связи =0. При прямой связи коэффициент - положительная дробь при обратной – отрицательная.


Коэффициент Спирмена принимает любые значения в интервале [−1; 1] .

Сущность метода Спирмена состоит в следующем:

1) располагают варианты факторного признака по возрастанию - ранжируют единицы по значению признака y;

2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака y .

Если связь между признаками прямая то с увеличением ранга признака x ранг признака y также будет возрастать; при тесной связи ранги признаков x и y в основном совпадут. При обратной связи возрастанию рангов признака x будет как правило соответствовать убывание рангов признака y. В случае отсутствия связи последовательность рангов признака y не будет обнаруживать никакого порядка возрастания или убывания.

Ранговый коэффициент корреляции Кендалла (τ) также может использоваться для измерения взаимосвязи между качественными и количественными признаками характеризующими однородные объекты и ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле:


(1.9.24)


где n - число наблюдений;

S - сумма разностей между числом последовательностей и числом инверсий по второму признаку.


Расчет данного коэффициента выполняется в следующей последовательности:

1. Значения x ранжируются в порядке возрастания или убывания;

2. Значения y располагаются в порядке соответствующем значениям x;


3. Для каждого ранга y определяется число следующих за ним значений рангов превышающих его величину. Суммируя таким образом числа определяется величина P как мера соответствия последовательностей рангов по x и y и учитывается со знаком (+);

4. Для каждого ранга y определяется число следующих за ним значений рангов меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком (-);

5. Определяется сумма баллов по всем членам ряда.

Как правило коэффициент Кендалла меньше коэффициента Спирмена. При достаточно большом объеме совокупности значения данных коэффициентов имеют следующую зависимость:

Связь между признаками признается статистически значимой если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0 5.

Статистическое изучение динамики социально-

экономических явлений

1.10. 1 Понятие рядов динамики и их классификация

Среди основных задач статистики важное место занимает описание изменений показателей во времени изучение процесса развития динамики социально-экономических явлений. Для отображения динамики строят ряды динамики (хронологические временные).

Ряд динамики (или динамический ряд) представляет собой ряд расположенных в хронологическом порядке числовых значений статистического показателя характеризующих изменение общественных явлений во времени.

Составными элементами ряда динамики являются показатели уровней ряда - «y» и показатели времени (годы кварталы месяцы сутки) или моменты (даты) времени - «t».

Построение и анализ рядов динамики позволяют выявить и измерить закономерности развития общественных явлений во времени. Эти закономерности не проявляются четко на каждом конкретном уровне а лишь в тенденции в достаточно длительной динамике. На основную закономерность динамики накладываются другие прежде всего случайные иногда сезонные влияния. Выявление основной тенденции в изменении уровней именуемой трендом является одной из главных задач анализа рядов динамики.


Классификация рядов динамики:


1) В зависимости от характера временного параметра ряды делятся на:


моментные характеризуют значения показателя по состоянию на определенные моменты времени (см. табл. 1.10.1);

интервальные ряды динамики характеризуют значение показателя за определенные интервалы (периоды) времени (см. табл. 1.10.2).


Таблица 1.10.1

Число общеобразовательных учреждений в Белгородской области

(на начало учебного года)

Год

2000/

2001

2001/

2002

2002/

2003

2003/

2004

2004/

2005

Число общеобразовательных учреждений 823 817 813 807 802

// Белгородская область в цифрах в 2004 году. Крат. стат. сб./ Белгородстат. – 2005 с. 77


Таблица 1.10.2

Инвестиции в основной капитал направленные на охрану и рациональное использование земель

Год 1999 2001 2002 2003 2004
Инвестиции в основной капитал, млн. руб. 10,8 6,3 3,9 8,7 9,0

// Белгородская область в цифрах в 2004 году. Крат. стат. сб./ Белгородстат. – 2005 с. 32


Из различного характера интервальных и моментных рядов динамики вытекают некоторые особенности уровней соответствующих рядов.

Уровни интервального ряда динамики абсолютных величин характеризуют собой суммарный итог какого-либо явления за определенный отрезок времени. Они зависят от продолжительности этого периода времени и поэтому их можно суммировать как не содержащие повторного счета.

Отдельные же уровни моментного ряда динамики абсолютных величин содержат элементы повторного счета и это делает бессмысленным суммирование уровней рядов динамики.

2) В зависимости от содержания уровней ряды динамики подразделяются на:

динамические ряды абсолютных показателей;

динамические ряды относительных показателей;

динамические ряды средних показателей.

Так в рассмотренных рядах динамики (табл. 1.10.1 и 1.10.2) уровни выражены абсолютными показателями. Средними показателями могут выражаться уровни характеризующие динамику средней заработной платы работников предприятия динамику урожайности винограда и т.д.

Страницы: 1 2 3