Как посчитать корреляцию в статистике
Перейти к содержимому

Как посчитать корреляцию в статистике

  • автор:

Корреляция, корреляционная зависимость

Корреляция (от лат. correlatio), корреляционная зависимость — взаимозависимость двух или нескольких случайных величин. Суть ее заключается в том, что при изменении значения одной переменной происходит закономерное изменение (уменьшению или увеличению) другой(-их) переменной(-ых).

При расчете корреляций пытаются определить, существует ли статистически достоверная связь между двумя или несколькими переменными в одной или нескольких выборках. Например, взаимосвязь между ростом и весом детей, взаимосвязь между успеваемостью и результатами выполнения теста IQ, между стажем работы и производительностью труда.

Важно понимать, что корреляционная зависимость отражает только взаимосвязь между переменными и не говорит о причинно-следственных связях. Например, если бы исследуемой выборке между ростом и весом человека существовала корреляционная зависимость то, это не значило бы, что вес является причиной роста человека, иначе сбрасывая лишние килограммы рост человека также уменьшался. Корреляционная связь лишь говорит о взаимосвязанности данных параметров, причем в данной конкретной выборке, в другой выборке мы можем не наблюдать полученные корреляции.

Показатель корреляции. Коэффициент корреляции (r) характеризует величину отражающую степень взаимосвязи двух переменных между собой. Он может варьировать в пределах от -1 (отрицательная корреляция) до +1 (положительная корреляция). Если коэффициент корреляции равен 0 то, это говорит об отсутствии корреляционных связей между переменными. Причем если коэффициент корреляции ближе к 1 (или -1) то говориться о сильной корреляции, а если ближе к 0, то о слабой.

При положительной корреляции увеличение (или уменьшение) значений одной переменной ведет к закономерному увеличению (или уменьшению) другой переменной т.е. взаимосвязи типа увеличение-увеличение (уменьшение-уменьшение).

При отрицательной корреляции увеличение (или уменьшение) значений одной переменной ведет к закономерному уменьшению (или увеличению) другой переменной т.е. взаимосвязи типа увеличение-уменьшение (уменьшение-увеличение).

Корреляция (синонимы): соотношение, соотнесение, взаимосвязь, взаимозависимость, взаимообусловленность, взаимосоответствие.

Как читать корреляционную матрицу

Как читать корреляционную матрицу

В статистике нас часто интересует понимание взаимосвязи между двумя переменными.

Например, мы можем захотеть понять взаимосвязь между количеством часов, отработанных студентом, и полученными им экзаменационными баллами.

Одним из способов количественной оценки этой взаимосвязи является использование коэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными
  • 0 указывает на отсутствие линейной корреляции между двумя переменными
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

Но в некоторых случаях мы хотим понять корреляцию между более чем одной парой переменных. В этих случаях мы можем создать матрицу корреляции , представляющую собой квадратную таблицу, которая показывает коэффициенты корреляции между несколькими переменными.

Пример корреляционной матрицы

В приведенной ниже матрице корреляции показаны коэффициенты корреляции между несколькими переменными, связанными с образованием:

Пример корреляционной матрицы

Каждая ячейка в таблице показывает корреляцию между двумя конкретными переменными. Например, выделенная ячейка ниже показывает, что корреляция между «часами, потраченными на учебу» и «оценкой за экзамен» составляет 0,82 , что указывает на сильную положительную корреляцию. Больше часов, потраченных на учебу, тесно связано с более высокими баллами на экзаменах.

Пример того, как читать корреляционную матрицу

А выделенная ячейка ниже показывает, что корреляция между «часами, потраченными на учебу» и «часами, потраченными на сон» составляет -0,22 , что указывает на слабую отрицательную корреляцию. Больше часов, потраченных на учебу, связано с меньшим количеством часов, потраченных на сон.

Пример отрицательной корреляции в корреляционной матрице

А выделенная ячейка ниже показывает, что корреляция между «количеством часов, проведенных во сне» и «показателем IQ» составляет 0,06 , что указывает на то, что они в основном не связаны. Существует очень небольшая связь между количеством часов, которые студент спит, и его показателем IQ.

Пример матрицы корреляции без корреляции

Также обратите внимание, что все коэффициенты корреляции по диагонали таблицы равны 1, потому что каждая переменная полностью коррелирует сама с собой. Эти ячейки бесполезны для интерпретации.

Пример диагональных ячеек корреляционной матрицы

Вариации корреляционной матрицы

Обратите внимание, что корреляционная матрица совершенно симметрична. Например, верхняя правая ячейка показывает то же значение, что и нижняя левая ячейка:

Пример симметричной матрицы корреляции

Это связано с тем, что обе ячейки измеряют корреляцию между «часами, потраченными на учебу» и «рейтингом школы».

Поскольку матрица корреляции симметрична, половина коэффициентов корреляции, показанных в матрице, являются избыточными и ненужными. Таким образом, иногда будет отображаться только половина корреляционной матрицы:

Половина корреляционной матрицы

А иногда матрица корреляции раскрашивается, как тепловая карта, чтобы коэффициенты корреляции было еще легче читать:

Пример матрицы корреляции тепловой карты

Когда использовать корреляционную матрицу

На практике корреляционная матрица обычно используется по трем причинам:

1. Корреляционная матрица удобно обобщает набор данных.

Матрица корреляции — это простой способ суммировать корреляции между всеми переменными в наборе данных. Например, предположим, что у нас есть следующий набор данных, который содержит следующую информацию для 1000 учащихся:

Пример необработанного набора данных для корреляционной матрицы

Было бы очень сложно понять взаимосвязь между каждой переменной, просто глядя на необработанные данные. К счастью, корреляционная матрица может помочь нам быстро понять корреляции между каждой парой переменных.

2. Корреляционная матрица служит диагностикой регрессии.

Одним из ключевых допущений множественной линейной регрессии является то, что ни одна независимая переменная в модели не имеет сильной корреляции с другой переменной в модели.

Когда две независимые переменные сильно коррелированы, это приводит к проблеме, известной как мультиколлинеарность , и может затруднить интерпретацию результатов регрессии.

Один из самых простых способов обнаружить потенциальную проблему мультиколлинеарности — посмотреть на матрицу корреляции и визуально проверить, сильно ли коррелируют какие-либо переменные друг с другом.

3. Корреляционная матрица может использоваться в качестве исходных данных для других анализов.

Корреляционная матрица используется в качестве исходных данных для других сложных анализов, таких как исследовательский факторный анализ и модели структурных уравнений.

Дополнительные ресурсы

В следующих руководствах объясняется, как создать корреляционную матрицу с помощью различных статистических программ:

Корреляция

Корреляция (от лат. correlatio «соотношение») — это взаимосвязь между разными показателями в статистике. Например, когда один показатель увеличивается, другой уменьшается — или тоже увеличивается. Корреляцию используют, чтобы оценить зависимость переменных друг от друга.

Если два показателя коррелируют друг с другом, выше вероятность, что они как-то связаны: например, один зависит от другого или они оба зависят от третьей переменной.

Корреляция может быть:

  • положительной — когда один показатель растет, другой тоже растет;
  • отрицательной — когда одна переменная растет, другая уменьшается;
  • нейтральной — изменения не связаны друг с другом.

«IT-специалист с нуля» наш лучший курс для старта в IT

IT-специалист с нуля

Наш лучший курс для старта в IT. За 2 месяца вы пробуете себя в девяти разных профессиях: мобильной и веб-разработке, тестировании, аналитике и даже Data Science — выберите подходящую и сразу освойте ее.

картинка - 2023-03-14T191232.869

Профессия / 8 месяцев
IT-специалист с нуля

Попробуйте 9 профессий за 2 месяца и выберите подходящую вам

vsrat_7 1 (2)

Что показывает корреляция

С помощью корреляции определяют, как одна переменная меняется относительно другой — это определение из статистики. Это нужно, чтобы оценить, насколько показатели могут быть взаимосвязаны.

Корреляция — это не зависимость. Если две переменные коррелируют друг с другом — это еще не значит, что между ними есть причинно-следственная связь. Причины корреляции нужно исследовать отдельно — чтобы понять, как именно могут быть связаны показатели.

Корреляция может быть случайной. Иногда друг с другом коррелируют показатели, которые вообще не связаны и никак не зависят один от другого. Есть целый сайт, где собраны абсурдные корреляции: например, чем меньше люди потребляют маргарина, тем меньше разводов в штате Мэн. Корреляция — больше 99%! Понятно, что связи тут, скорее всего, нет, просто совпадение. Такое явление называют spurious correlation, или ложной корреляцией.

Для чего тогда нужна корреляция

Несмотря на риск простого совпадения, чаще всего корреляция все же помогает найти неочевидные связи между переменными. Связи могут быть различными:

  • прямая зависимость одного фактора от другого;
  • непрямая зависимость, например, участвуют еще и вспомогательные факторы;
  • зависимость обеих переменных от какой-то третьей;
  • еще какая-то связь между переменными.

Вот пример: продажи мороженого коррелируют с количеством лесных пожаров. Да, эти факторы не связаны напрямую, но есть третья переменная, которая влияет на оба: жаркая погода.

Вывод не всегда такой очевидный, как в примере выше. Поэтому корреляцию не стоит использовать как окончательный результат исследования, но не нужно и недооценивать возможную связь.

Курс для новичков «IT-специалист
с нуля» – разберемся, какая профессия вам подходит, и поможем вам ее освоить

Кто работает с понятием корреляции

Специалисты по математической статистике. Они могут использовать корреляцию в расчетах, нужных для научных работ, экспериментов, исследований. Это может быть фундаментальная наука или прикладная — есть и коммерческие исследования, где тоже заняты статисты.

ML-инженеры. Математика и статистика активно используются в машинном обучении, например, при создании нейронных сетей и других обучающихся моделей. По корреляции инженер может отследить, что значат или не значат для модели те или иные данные на входе. Например, добавление во входные данные той или иной переменной коррелирует с ростом точности — это поможет лучше понять, что подавать модели на вход.

Аналитики данных. Наука о данных активно использует статистику в бизнес-аналитике, дата-аналитике и других отраслях. Корреляция помогает аналитикам отобрать переменные для статистической модели, плюс в науке о данных есть отдельный метод — корреляционный анализ.

Маркетологи. Статистику вообще и корреляцию в частности используют при разработке маркетинговых стратегий. Если какой-то фактор коррелирует с повышением показателей, возможно, его стоит развивать.

Журналисты. Корреляцию используют для оценки разных событий в журналистике, особенно при расследованиях. Если корреляция между событием и каким-то фактором нашлась — это повод рассмотреть событие с другой точки зрения и, возможно, опубликовать новый материал с неочевидными выводами.

Во всех этих случаях важно избегать ложной причинно-следственной связи. Например, корреляция между посещением вебинаров и покупкой продукта не обязательно означает, что вебинары помогают покупать продукт. Может, обеими вещами просто интересуются одни и те же люди.

Некоторые виды коэффициентов корреляции

Коэффициенты корреляции — показатели, которые выражают силу корреляции между переменными. Какой коэффициент использовать — зависит от ситуации, каждый из них лучше подходит для определенных случаев.

Вот несколько распространенных коэффициентов корреляции.

Пирсона. Этот коэффициент — самый популярный в статистике, описывается буквой r и показывает прямолинейную связь между переменными. Он принимает значение от -1 до 1. Чем ближе значение к 1, тем выше положительная корреляция между показателями. Если оно, наоборот, ближе к -1 — корреляция отрицательная. А близкое к 0 значение, включая сам ноль, говорит, что корреляции нет.

Кендалла. Этот коэффициент описывается буквой t и показывает корреляцию между факторами, которые можно ранжировать по какому-то признаку. Вместо значений показателя используют ранги — номера, присвоенные значениям при ранжировании. Проверить корреляцию Кендалла можно только для порядковых показателей — таких, которые можно упорядочить. Значение коэффициента — тоже от -1 до 1, и означают цифры то же, что и при корреляции Пирсона. Он тоже подходит только для оценки линейной связи.

Спирмена. Описывается буквой p.Так же как и коэффициент Кендалла, этот предназначен для оценки ранжированных показателей — но больше подходит для малых выборок. Он использует непараметрические методы, которые могут обрабатывать данные низкого качества — с погрешностями, малым количеством информации и так далее. Принимает те же значения, что и коэффициент Пирсона, и означают они то же самое.

Еще есть коэффициент фи-корреляции для бинарных переменных и коэффициент Крамера для номинальных переменных, основанный на критерии хи квадрат.

Коэффициенты существуют только для линейной корреляции, когда график одного показателя как бы «повторяет» другой. Еще есть нелинейная корреляция: одна переменная изменяется равномерно, а другая неравномерно, но взаимосвязь при этом есть. Для оценки нелинейной корреляции не пользуются коэффициентами, а используют более общий показатель — корреляционное отношение.

С помощью чего считают корреляцию

Рассчитать корреляцию для каких-то факторов можно и вручную, но специалисты и студенты обычно пользуются вспомогательными инструментами.

Онлайн-сервисы. Наиболее простой вариант: онлайн-калькуляторы для математических задач. Ими обычно пользуются студенты, чтобы сэкономить время. В такой сервис можно ввести данные для расчета, и он покажет результат, иногда даже может построить график. Такими онлайн-сервисами можно пользоваться при обучении, чтобы разобраться с самим принципом: для больших реальных выборок они не подойдут.

Excel. В редакторах таблиц есть формулы, с помощью которых можно посчитать большую часть шагов. Поэтому многие пользуются для работы Excel или Google Таблицами. Нужно ввести данные выборок в едином виде, прописать нужные формулы, а посчитает система все самостоятельно. Автоматизировать можно и обработку данных: например, привести все числа к целому типу или ранжировать по величине.

Языки программирования. Обычно математические и статистические задачи решают с помощью Python: он удобный, хорошо подходит для расчетов и интуитивно понятный. В этом языке много библиотек для разных математических методов и анализа данных, визуализации и построения графиков. Простой расчет корреляции можно написать с помощью библиотеки numpy и визуализировать с matplotlib. Преимущество такого подхода — универсальность и гибкость: можно написать код под конкретную задачу и учесть кучу факторов, а еще автоматизировать обработку и оценку данных. А для расчета достаточно ввести несколько команд из библиотеки, самостоятельно вспоминать формулы не нужно.

Вручную. Подсчитать корреляцию можно самостоятельно — на бумаге. Но это долгий и трудоемкий способ, который подходит разве что для обучения. Огромную реальную выборку с десятками тысяч значений так не обработаешь — слишком много времени уйдет на расчеты. Зато ручной подсчет хорошо помогает понять, как вообще работает оценка корреляции.

Статьи по теме:

Как рассчитать линейный коэффициент корреляции

В создании этой статьи участвовала наша опытная команда редакторов и исследователей, которые проверили ее на точность и полноту.

Команда контент-менеджеров wikiHow тщательно следит за работой редакторов, чтобы гарантировать соответствие каждой статьи нашим высоким стандартам качества.

Количество просмотров этой статьи: 81 067.

В этой статье:

Коэффициент корреляции (или линейный коэффициент корреляции) обозначается как «r» (в редких случаях как «ρ») и характеризует линейную корреляцию (то есть взаимосвязь, которая задается некоторым значением и направлением) двух или более переменных. Значение коэффициента лежит между -1 и +1, то есть корреляция бывает как положительной, так и отрицательной. Если коэффициент корреляции равен -1, имеет место идеальная отрицательная корреляция; если коэффициент корреляции равен +1, имеет место идеальная положительная корреляция. В остальных случаях между двумя переменными наблюдается положительная корреляция, отрицательная корреляция или отсутствие корреляции. Коэффициент корреляции можно вычислить вручную, с помощью бесплатных онлайн-калькуляторов или с помощью хорошего графического калькулятора.

Метод 1 из 4:

Вычисление коэффициента корреляции вручную

Step 1 Соберите данные.

  • Например, даны четыре пары значений (чисел) переменных «х» и «у». Можно создать следующую таблицу:
    • x || y
    • 1 || 1
    • 2 || 3
    • 4 || 5
    • 5 || 7

    Step 2 Вычислите среднее арифметическое «х».

    • В нашем примере даны четыре значения переменной «х». Чтобы вычислить среднее арифметическое «х», сложите эти значения, а затем сумму разделите на 4. Вычисления запишутся так:
    • μ x = ( 1 + 2 + 4 + 5 ) / 4 =(1+2+4+5)/4>
    • μ x = 12 / 4 =12/4>
    • μ x = 3 =3>

    Step 3 Найдите среднее арифметическое «у».

    • В нашем примере даны четыре значения переменной «у». Сложите эти значения, а затем сумму разделите на 4. Вычисления запишутся так:
    • μ y = ( 1 + 3 + 5 + 7 ) / 4 =(1+3+5+7)/4>
    • μ y = 16 / 4 =16/4>
    • μ y = 4 =4>

    Step 4 Вычислите стандартное отклонение «х».

    • σ x = 1 n − 1 Σ ( x − μ x ) 2 =>\Sigma (x-\mu _)^>>>
    • В нашем примере вычисления запишутся так:
    • σ x = 1 4 − 1 ∗ ( ( 1 − 3 ) 2 + ( 2 − 3 ) 2 + ( 4 − 3 ) 2 + ( 5 − 3 ) 2 ) =>*((1-3)^+(2-3)^+(4-3)^+(5-3)^)>>>
    • σ x = 1 3 ∗ ( 4 + 1 + 1 + 4 ) =>*(4+1+1+4)>>>
    • σ x = 1 3 ∗ ( 10 ) =>*(10)>>>
    • σ x = 10 3 =>>>
    • σ x = 1 , 83 =1,83>

    Step 5 Вычислите стандартное отклонение «у».

    • В нашем примере вычисления запишутся так:
    • σ y = 1 4 − 1 ∗ ( ( 1 − 4 ) 2 + ( 3 − 4 ) 2 + ( 5 − 4 ) 2 + ( 7 − 4 ) 2 ) =>*((1-4)^+(3-4)^+(5-4)^+(7-4)^)>>>
    • σ y = 1 3 ∗ ( 9 + 1 + 1 + 9 ) =>*(9+1+1+9)>>>
    • σ y = 1 3 ∗ ( 20 ) =>*(20)>>>
    • σ y = 20 3 =>>>
    • σ y = 2 , 58 =2,58>

    Step 6 Запишите основную формулу для вычисления коэффициента корреляции.

    • ρ = ( 1 n − 1 ) Σ ( x − μ x σ x ) ∗ ( y − μ y σ y ) >\right)\Sigma \left(>>>\right)*\left(>>>\right)>
    • Здесь и в других источниках величины могут обозначаться по-разному. Например, в некоторых формулах присутствуют «ρ» и «σ», а в других «r» и «s». В некоторых учебниках приводятся другие формулы, но они являются математическими аналогами приведенной выше формулы.

    Step 7 Вычислите коэффициент корреляции.

    • В нашем примере вычисления запишутся так:
    • ρ = ( 1 n − 1 ) Σ ( x − μ x σ x ) ∗ ( y − μ y σ y ) >\right)\Sigma \left(>>>\right)*\left(>>>\right)>
    • ρ = ( 1 3 ) ∗ >\right)*> [ ( 1 − 3 1 , 83 ) ∗ ( 1 − 4 2 , 58 ) + ( 2 − 3 1 , 83 ) ∗ ( 3 − 4 2 , 58 ) >\right)*\left(>\right)+\left(>\right)*\left(>\right)>
      + ( 4 − 3 1 , 83 ) ∗ ( 5 − 4 2 , 58 ) + ( 5 − 3 1 , 83 ) ∗ ( 7 − 4 2 , 58 ) >\right)*\left(>\right)+\left(>\right)*\left(>\right)> ]
    • ρ = ( 1 3 ) ∗ ( 6 + 1 + 1 + 6 4 , 721 ) >\right)*\left(>\right)>
    • ρ = ( 1 3 ) ∗ 2 , 965 >\right)*2,965>
    • ρ = ( 2 , 965 3 ) >\right)>
    • ρ = 0 , 988

    Step 8 Проанализируйте полученный результат.

    • Так как значение коэффициента корреляции положительно, между переменными «х» и «у» имеет место положительная корреляция. То есть при увеличении значения «х», значение «у» тоже увеличивается.
    • Так как значение коэффициента корреляции очень близко к +1, значения переменных «х» и «у» сильно взаимосвязаны. Если нанести точки на координатную плоскость, они расположатся близко к некоторой прямой.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *