Корреляционный Анализ

Корреляционный Анализ в Энциклопедическом словаре:
Корреляционный Анализ - раздел математической статистики, объединяющийпрактические методы исследования корреляционной зависимости между двумя(или большим числом) случайными признаками или факторами. См. Корреляция(в математической статистике).

Определение «Корреляционный Анализ» по БСЭ:
Корреляционный анализ - совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами (см. Регрессионный анализ). Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного К. а. (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).
Корреляционное поле и корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость выборочных точек получают корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы (см. в ст. Корреляция в математической статистике) приводятся численности nij тех пар (x, y), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.
Предполагая длины интервалов группировки (по каждому из переменных) равными между собой, выбирают центры xi (соответственно yj) этих интервалов и числа nij в качестве основы для расчётов.
Коэффициент корреляции и корреляционное отношение дают более точную информацию о характере и силе связи, чем картина корреляционного поля. Выборочный коэффициента корреляции определяют по формуле:

ρ̂ =
ij(xi−xЇ)(yj−yЇ) nij




i n(xi−xЇ)І

j n·j(yj−yЇ)І

,

где n = ∑j nij;,   n·j = ∑i nij;,   xЇ = ∑i n xi ⁄ n,    yЇ = ∑j n·j yj ⁄ n.
При большом числе независимых наблюдений, подчиняющихся одному и тому же распределению, и при надлежащем выборе интервалов группировки коэффициент ρ̂ близок к истинному коэффициенту корреляции ρ. Поэтому использование
ρ̂ как меры связи имеет четко определённый смысл для тех распределений, для которых естественной мерой зависимости служит ρ (т. е. для нормальных или близких к ним распределений). Во всех др. случаях в качестве характеристики силы связи рекомендуется использовать корреляционное отношение η, интерпретация которого не зависит от вида исследуемой зависимости.
Выборочное значение η̂y|x вычисляется по данным корреляционной таблицы:

η̂ Іy|x =

 1 
n
i n(yЇi−yЇ)І

,


 1 
n
j n·j(yj−yЇ)І


где числитель характеризует рассеяние условных средних значений yЇi = ∑j nijyj ⁄ n около безусловного среднего yЇ (аналогично определяется выборочное значение η̂x|y). Величина η̂ Іy|x−ρІ используется в качестве меры отклонения зависимости от линейной, т. к. обычно η̂Іy|x>ρІ, η̂Іx|y>ρІ и лишь в случае линейной зависимости ρІ=η̂Іy|x=η̂Іx|y. Так, при анализе корреляции между высотой и диаметром северной сосны было обнаружено, что условные средние значения высоты сосны для заданного диаметра связаны нелинейной зависимостью. Корреляционное отношение (высоты к диаметру) в этом случае равно 0,813, а коэффициент корреляции равен 0,762.
Проверка гипотезы значимости связи основывается на знании законов распределения выборочных корреляционных характеристик. В случае нормального распределения величина выборочного коэффициента корреляции ρ̂ считается значимо отличной от нуля, если выполняется неравенство
(ρ̂)І > [1+(n−2) ⁄ tαІ]−1,
где tα есть критическое значение t-распределения Стьюдента с (n−2) степенями свободы, соответствующее выбранному уровню значимости α (см. Стьюдента распределение). Если же известно, что
ρ ≠ 0, то необходимо воспользоваться z-преобразованием Фишера (не зависящим от ρ и n):

z =
1

2
ln
1 + ρ̂
———
1 − ρ̂
.

Исходя из приближённой нормальности z, можно определить доверительные интервалы для истинного коэффициента корреляции ρ.
В случае когда изучаются не количественные признаки, а качественные, обычные меры зависимости не годятся. Однако, если удаётся каким-либо образом упорядочить изучаемые объекты в отношении некоторого признака, т. е. прописать им порядковые номера - ранги (по два номера в соответствии с двумя признаками), то в качестве выборочной характеристики связи можно воспользоваться, например, т. н. коэффициентом ранговой корреляции:


6n

i=1
diІ

R = 1 −
—————
,
n(nІ−1)

где di - разность рангов по обоим признакам для каждого объекта. По степени уклонения R от нуля можно сделать некоторое заключение о степени зависимости качественных признаков. Проверка гипотезы независимости признаков при небольшом объёме выборки производится с помощью специальных таблиц, а при n > 10 для вычисления критических значений выборочных коэффициентов пользуются тем, что эти величины распределены приближённо нормально.
Лит. см. при ст. Корреляция.
А. В. Прохоров.

Корреляционный    Корреляционный Анализ    Корреляция