По данным таблицы коэффициент корреляции равен - Корреляционный анализ. Линейный коэффициент корреляции, коэффициент корреляции рангов. Коэффициент связи качественных признаков

Корреляционная связь и корреляционная зависимость. Отличие функциональной и вероятностной связи зависимости. Зависимая и независимая переменная в эксперименте. Форма, направление и сила корреляционной связи. Классификация корреляционных связей по степени силы и по степени значимости.

Понятие линейной и ранговой корреляции. Метод ранговой корреляции Спирмена r s. Ограничения метода, его достоинства и недостатки.

Графическое представление метода ранговой корреляции. Алгоритм расчета коэффициента ранговой корреляции. Несмотря на наличие ссылок по тексту, автор все же рекомендует прочесть раздел целиком - для более последовательного понимания материала.

Корр еляция — мера согласованности одного признака с другим, с несколькими, либо взаимная согласованность группы признаков. Корр еляционная связь отражает тот факт, что изменения одного признака находятся в некотором соответствии с изменениями другого признака.

Корреляционная же зависимость указывает на причинно-следственную связь изменений двух признаков, что, строго говоря, не всегда соответствует действительности, так как корреляционные методы не выявляют этой причинности, а лишь указывают на наличие некоторого соответствия. Признаки могут находиться не только во взаимной зависимости друг от друга, но и оба в зависимости от какого-либо третьего воздействия, не включенного в область рассмотрения.

Таким образом, более корректно употреблять понятие корреляционная связь. Корр еляционная связь носит характер вероятностной. Важно отличать такую зависимость даже если мы рискуем пользоваться этим термином от функциональной зависимости. Функция, во-первых, непрерывна, тогда как при корреляционной зависимости значения, принимаемые признаком, дискретны. Во-вторых, функциональная зависимость предполагает взаимно однозначное соответствие аргумента х и функции f х , вероятностная же зависимость допускает некий условный диапазон, в который предположительно с такой-то долей вероятности попадает значение признака у i при значении х i признака х.

Признаки, которые мы измеряем, и которые, по нашему предположению, могут меняться под заданным воздействием, называются зависимыми переменными. Иными словами, при принятом нами постоянстве одних переменных независимых , фиксировано изменив их, мы предполагаем некоторое неизвестное заранее изменение исследуемых переменных зависимых.

Это деление, как уже было сказано, условно, так как не известно доподлинно, какой именно из признаков влияет на другой. Корреляционные связи различаются по следующим характеристикам: По форме — зависимость может быть линейной и нелинейной. Направление указывает только на уменьшение-увеличение одного при изменении другого, но не более!

По силе — сила связи не зависит от направления и определяется абсолютной величиной коэффициента корреляции r. Классификация корреляционных связей по степени силы. Первая из классификаций ориентирована только на величину коэффициента корреляции, а вторая определяет, какого уровня значимости достигает данная величина коэффициента корреляции при данном объеме выборки.

Чем больше объем выборки, тем меньшей величины коэффициента корреляции оказывается достаточно для того, чтобы корреляция была признана достоверной. В результате, при малом объеме выборки и сильная корреляция может оказаться недостоверной.

Это объясняется большой возможностью обнаружения случайных связей, поскольку число всех сочетаний в малых выборках также мало. В то же время, при больших объемах выборки даже слабая корреляция между какими либо признаками может оказаться достоверной. Предположим, что в первой из них ежедневно рождается детей, во второй только Однажды девочек родилось вдвое больше, чем мальчиков.

Спрашивается, для какой больницы данное событие более вероятно? Ответ очевиден для статистика, однако, он не столь очевиден неискушенному. Конечно, такое событие гораздо более вероятно для маленькой больницы. Объяснение этого факта состоит в том, что вероятность случайного отклонения от среднего возрастает с уменьшением объема выборки. Линейная и ранговая корреляция. Метод линейной корреляции корреляции Пирсона применяется для определения меры соответствия двух признаков, выраженных количественно, иными словами, - для численных величин.

Это параметрический метод, который как и прочие параметрические требует соответствия распределения данного исследуемого признака закону нормального распределения. В отличие от этого метода, метод ранговой корреляции корреляция Спирмена применим к любым количественно измеренным или ранжированным данным.

Этот метод способен, в отличие от других, измерять согласованность изменения разных признаков у одного испытуемого или выявлять совпадения индивидуальных ранговых показателей у двух испытуемых; или у испытуемого и усредненный показатель некой группы; или какие-либо показатели в сравнении двух групп. Метод ранговой корреляции Спирмена позволяет определить силу и направление корреляционной связи между двумя признаками или двумя иерархиями признаков. Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы.

Такими рядами могут быть: А Два признака, измеренные в одной и той же группе переменных наиболее часто в этом качестве выступает группа людей, которых принято тогда именовать испытуемыми или респондентами. Естественно, под переменными подразумеваются не сами люди, а данные ими ответы на те или иные вопросы. Б две индивидуальн ые ие рархии признаков, выявленные у двух испытуемых по одному и тому же набору признаков скажем, по ответам на пункты анкеты или теста.

В Две группов ые ие рархии признаков например, соответствие каких-либо выборов, сделанных одной группой людей выборам другой группы. Г Индивидуальная и групповая иерархии признаков например, сопоставление индивидуальной иерархии жизненных ценностей сотрудника усредненному мнению группы на этот же счет; сопоставление последовательности товаров, которые приобрели бы в среднем жители города А и города Б при условии получения премии, на которую заранее не рассчитывали.

Ограничения метода ранговой корреляции. По каждой переменной должно быть представлено не менее 5 наблюдений. Коэффициент ранговой корреляции Спирмена r s при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения.

В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений. В случае несоблюдения такого условия вносится поправка на одинаковые ранги будет дано ниже. Помимо этих ограничений, следует так же помнить об ограничениях корреляционного метода вообще — невозможность обнаружения причинной связи между явлениями.

При увеличении А, В может меняться как в сторону увеличения, так и в сторону уменьшения. Рисунок 16 — В — пример сильной корреляции с коэффициентом Увеличение признака А сопровождается пропорциональным уменьшением признака В. Алгоритм расчета ранговой корреляции. Занести ранги во второй столбец таблицы по порядку номеров признаков. В первом к тому моменту уже находятся номера или имена исследуемых признаков. S d 2 — квадратов разностей между рангами;. N — количество признаков, участвовавших в ранжировании.

Если r s превышает критическое значение или, по крайней мере, равен ему, - корреляция достоверно отличается от нуля. Образец таблицы для внесения данных: Ранги переменной А по порядку. Ранги переменной В по порядку. Предположим, что мы располагаем выборкой данных о какой-то группе объектов. Пусть эти объекты обладают общими родовыми особенностями примерно одинаковы.

Пусть, к тому же, у каждого из объектов можно количественно измерить, как минимум, два каких-либо параметра. При этих обстоятельствах открывается возможность для подсчета линейной корреляции между двумя или более признаками, присущими этим объектам.

Например, такими выборками данных могут служить сведения о: Во всех этих примерах имеется возможность определить корреляцию, то есть — степень согласованности в изменении двух признаков. Ввиду того, что расчет линейной корреляции проводится с использованием средних значений и дисперсий, следует также помнить, что эта процедура относится к разряду параметрических методов и, соответственно, требует нормальности распределения признака.

Подробней об этом будет сказано ниже. Также следует помнить, что никакая корреляция вообще не устанавливает зависимости одного обстоятельства от другого , а лишь является мерой совместной вариации двух величин. И, наконец, линейная корреляция потому и называется линейной, что способна дать ответ о взаимосвязи изменений того и иного свойства объекта только тогда, когда возрастание-убывание значения признака происходит по линейному закону график — прямая линия.

Графическое представление линейной корреляции.

Коэффициент корреляции — Студопедия

Пусть в нашем распоряжении имеется N тигров, каждый из которых любезно предоставил возможность измерить длину своего тела и длину хвоста. На второй части рисунка тигров много — так, что они представляют собой некую фигуру на поле диаграммы. Если теперь абстрагироваться от тигров и перейти к элементам выборки третья часть рисунка , то можно сказать, что точки, соответствующие этим элементам выстраиваются вдоль некоей воображаемой лини или вписываются в некую криволинейную фигуру.

Отсюда следует, что чем меньше площадь этой фигуры, тем в большей согласованности находятся между собой сопоставляемые признаки, то есть больше коэффициент их кореляции.

Уже на второй части рисунка можно построить такую воображаемую линию. Таким образом, длина хвостов наших гипотетических тигров находится в согласии с размерами тела, хотя в этой компании имеются также длиннохвостые и короткохвостые представители.

Возвратимся к третьей части рисунка и будем далее называть такой рисунок диаграммой рассеяния. Итак, каждый элемент выборки обладает двумя свойствами сопоставляемыми признаками , и может быть описан посредством задания двух его координат — Х и У. При этом всегда это имеет смысл, если распределение близко к нормальному можно подсчитать среднее значение для всех Х и для всех У.

Таким образом, каждую точку на диаграмме можно полностью описать, указав величину ее отклонения от средних Х и У. Если теперь суммировать произведения отклонений по всем элементам выборки, то получим величину: Эта сумма будет велика и положительна, когда Х и У сильно связаны прямой взаимосвязью, и велика и отрицательна, в случае обратной взаимосвязи. Сама по себе эта сумма не пригодна в качестве меры взаимосвязи, поскольку учитывает количество элементов выборки зависит от числа пар значений.

Полученная величина S xy называется ковариацией. Признаки, между которыми рассчитывается взаимосвязь, могут быть измерены в разных единицах, иметь различные средние и дисперсии. Например, исследователя интересует взаимосвязь между ростом и весом солдат некоего отделения см.

Вес измеряется в килограммах , а рост — в сантиметрах. Все эти обстоятельства обязывают в качестве меры взаимосвязи избрать такую , которая не зависела бы ни от измерительных единиц, ни от средних, ни от дисперсий.

Полученная величина называется коэффициентом корреляции. Процедура расчета линейной корреляции с помощью программы SPSS. Прежде, чем приступить к работе, необходимо напомнить о правильной организации файла данных: В случае линейной корреляции всегда в столбцах переменных будут располагаться сопоставляемые величины например, рост и вес солдат, IQ и возраст респондента, длина и ширина листа растения и т.

Каждая из сопоставляемых характеристик, естественно, должна занять свой определенный столбец. Имеет значение лишь соблюдение этого условия, располагать же сами строки, то есть наблюдения можно в любой последовательности. Для наглядности значения можно сортировать средствами самой программы Данные — Сортировка регистров — сортировать по… — что не повлияет на результат вычислений. Она не должна оказаться строковой string , а оставаться числовой numeric.

КРИТЕРИЙ КОРРЕЛЯЦИИ ПИРСОНА

SPSS не делает различий между данными, выраженными в интервальной шкале и шкале равных отношений, и применяет в расчетах одни и те же алгоритмы: Процедура расчета осуществляется путем выполнения последовательности действий: Анализ — Корреляция — Двумерно. Некоторые аспекты подсчета коэффициента корреляции. Ниже без доказательства будут приведены некоторые положения по подсчету коэффициента линейной корреляции.

В случае линейной функциональной зависимости между Х и У коэффициент корреляции между ними равен единице по абсолютной величине. Это означает, что экспериментальные данные для удобства можно перемножать или складывать с константами. Важно только, чтобы все данные выборки были подвергнуты одинаковым преобразованиям. Если исследовательская задача требует нахождения дисперсии суммы или разности двух переменных, между которыми известен коэффициент корреляции, то положительная корреляция способствует увеличению дисперсии такой суммы, а отрицательная — уменьшению.

Если при измерениях допущены ошибки погрешности , то это обстоятельство уменьшает коэффициент кореляции между Х и У , по сравнению с тем, какой был бы получен при возможности использовать истинные значения измерений. Увеличение объема выборки не исправляет такого положения если, разумеется, продолжать измерять что-либо прежними средствами. Например, при измерении набора каких-либо одинаковых деталей, произведенных портновским клеенчатым метром, мы получим каждый раз большие отклонения в ту или иную сторону, чем, если бы мерили рулеткой, штангенциркулем.

Десять, сто, тысяча замеров не изменят положения вещей, поскольку метр растягивается, недостаточно точно градуирован, и т. Ошибка, таким образом, не нейтрализуется со временем. Если в выборку объектов, для которых установлен коэффициент корреляции между признаками Х и У поместить такиме, для которых корреляция по Х и У отсутствует, итоговый коэффициент корреляции уменьшится по абсолютной величине.

Это относится, как к линейной, так и к ранговой корреляции. То обстоятельство, что два признака изменяются согласованно, может зависеть и от влияния третьей причины на оба сопоставляемых признака.

Пусть имеются два ряда случайных чисел две перменные с набором значений: Возьмем теперь еще один случайный ряд Z: Вследствие этого третий ряд окажет некоторое одинаковое воздействие на два первых ряда, и коэффициент корреляции между ними станет больше: Третий ряд выступил в этом примере в качестве общей причины, корреляция между Х и У обусловлена теперь не собственным сходством этих рядов, а влиянием Z.

В случае же наличияу этих признаков разнонаправленной ассимметрии максимальный коэффициент корреляции бывает равен 0,6 — 0,7. Для более корректной содержательной интерпретации коэффициента кореляции необходимо строить каждый раз диаграммы рассеяния.

Графики — Рассеяние — Простой. Ошибка при интерпретации даже еще при подсчете коэффициента корреляции может быть допущена и в том случае, когда в ыборке присутствуют аномальные значения очевидно большие или очевидно низкие.

Они могут возникать, во-первых, из-за неоднородности исследуемых элементов выборки. Во-вторых, - из-за ошибок. Например, снятые показания какого-либо прибора для удобства делились на три, но одно из наблюдений забыли пересчитать. В результате появится ряд, подобный этому: Одной такой ошибки оказывается достаточно для того, чтобы коэффициент корреляции очень существенно увеличился.

Ложная корреляция может также возникать при неслучайном отборе наблюдений для подсчета. Этот пункт некоторым образом противоположен предыдущему первой части. Если там утверждалось, что аномальные значения желательно исключать из рассмотрения, то этот пункт предлагает делать это с осторожностью, чтобы своим умышленным влиянием не исказить подлинное положение вещей.