Корреляционный Анализ
Корреляционный Анализ в Энциклопедическом словаре:
Корреляционный Анализ - раздел математической статистики, объединяющийпрактические методы исследования корреляционной зависимости между двумя(или большим числом) случайными признаками или факторами. См. Корреляция(в математической статистике).
Определение «Корреляционный Анализ» по БСЭ:
Корреляционный анализ - совокупность основанных на математической теории корреляции методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие основные практические приёмы: 1) построение корреляционного поля и составление корреляционной таблицы; 2) вычисление выборочных коэффициентов корреляции или корреляционного отношения; 3) проверка статистической гипотезы значимости связи. Дальнейшее исследование заключается в установлении конкретного вида зависимости между величинами (см. Регрессионный анализ). Зависимость между тремя и большим числом случайных признаков или факторов изучается методами многомерного К. а. (вычисление частных и множественных коэффициентов корреляции и корреляционных отношений).
Корреляционное поле и корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость выборочных точек получают корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы (см. в ст. Корреляция в математической статистике) приводятся численности nij тех пар (x, y), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.
Предполагая длины интервалов группировки (по каждому из переменных) равными между собой, выбирают центры xi (соответственно yj) этих интервалов и числа nij в качестве основы для расчётов.
Коэффициент корреляции и корреляционное отношение дают более точную информацию о характере и силе связи, чем картина корреляционного поля. Выборочный коэффициента корреляции определяют по формуле:
ρ̂ =
| ∑i∑j(xi−xЇ)(yj−yЇ) nij
|
√ | ∑i ni·(xi−xЇ)І
| √ | ∑j n·j(yj−yЇ)І
|
| ,
|
где n
i· = ∑
j n
ij;, n
·j = ∑
i n
ij;, xЇ = ∑
i n
i· x
i ⁄ n, yЇ = ∑
j n
·j y
j ⁄ n.
При большом числе независимых
наблюдений, подчиняющихся одному и тому же
распределению, и при надлежащем выборе интервалов группировки
коэффициент ρ̂ близок к истинному коэффициенту корреляции ρ.
Поэтому использование
ρ̂ как меры связи имеет четко
определённый смысл для тех распределений, для которых
естественной мерой зависимости служит ρ (т. е. для нормальных или близких к ним распределений). Во всех др. случаях в качестве
характеристики силы связи рекомендуется
использовать корреляционное отношение η,
интерпретация которого не зависит от вида исследуемой зависимости.
Выборочное
значение η̂
y|x вычисляется по данным корреляционной таблицы:
где
числитель характеризует
рассеяние условных средних значений yЇ
i = ∑
j n
ijy
j ⁄ n
i· около безусловного среднего yЇ
(аналогично определяется
выборочное значение η̂
x|y).
Величина η̂ І
y|x−ρІ используется в качестве меры
отклонения зависимости от
линейной, т. к. обычно η̂І
y|x>ρІ, η̂І
x|y>ρІ и лишь в случае линейной зависимости ρІ=η̂І
y|x=η̂І
x|y. Так, при анализе корреляции между высотой и диаметром северной сосны было
обнаружено, что условные
средние значения высоты сосны для заданного диаметра связаны нелинейной
зависимостью. Корреляционное отношение (высоты к
диаметру) в этом случае
равно 0,813, а коэффициент корреляции
равен 0,762.
Проверка гипотезы значимости связи основывается на знании законов распределения выборочных корреляционных характеристик. В случае нормального распределения величина выборочного коэффициента корреляции ρ̂ считается значимо
отличной от нуля, если выполняется неравенство
(ρ̂)І > [1+(n−2) ⁄ t
αІ]
−1,
где t
α есть критическое значение t-распределения Стьюдента с (n−2) степенями
свободы, соответствующее выбранному уровню значимости α (см. Стьюдента распределение). Если же
известно, что
ρ ≠ 0, то необходимо
воспользоваться z-преобразованием
Фишера (не зависящим от ρ и n):
Исходя из
приближённой нормальности z, можно
определить доверительные интервалы для истинного коэффициента корреляции ρ.
В случае
когда изучаются не
количественные признаки, а
качественные, обычные меры зависимости не годятся.
Однако, если удаётся каким-либо образом
упорядочить изучаемые объекты в отношении некоторого признака, т. е.
прописать им порядковые номера - ранги (по два номера в
соответствии с двумя признаками), то в качестве выборочной характеристики связи можно воспользоваться, например, т. н. коэффициентом ранговой корреляции:
где d
i -
разность рангов по обоим признакам для каждого объекта. По степени
уклонения R от нуля можно
сделать некоторое
заключение о степени зависимости качественных признаков.
Проверка гипотезы
независимости признаков при небольшом объёме
выборки производится с помощью специальных
таблиц, а при n > 10 для вычисления критических значений выборочных коэффициентов пользуются тем, что эти величины распределены
приближённо нормально.
Лит. см.
при ст. Корреляция.
А. В.
Прохоров.
Корреляционный
Корреляционный Анализ
Корреляция