Чем говорит коэффициент корреляции. Статистика и обработка данных в психологии(продолжение). Достаточно соблюсти несложный алгоритм действий

В главе 4 мы рассмотрели основные одномерные описательные статисти­ки - меры центральной тенденции и изменчивости, которые применяются для описания одной переменной. В этой главе мы рассмотрим основные ко­эффициенты корреляции.

Коэффициент корреляции - двумерная описательная статистика, количе­ственная мера взаимосвязи (совместной изменчивости) двух переменных.

История разработки и применения коэффициентов корреляции для ис­следования взаимосвязей фактически началась одновременно с возникнове­нием измерительного подхода к исследованию индивидуальных различий - в 1870-1880 гг. Пионером в измерении способностей человека, как и автором самого термина «коэффициент корреляции», был Френсис Гальтон, а самые популярные коэффициенты корреляции были разработаны его последовате­лем Карлом Пирсоном. С тех пор изучение взаимосвязей с использованием коэффициентов корреляции является одним из наиболее популярных в пси­хологии занятием.

К настоящему времени разработано великое множество различных коэф­фициентов корреляции, проблеме измерения взаимосвязи с их помощью по­священы сотни книг. Поэтому, не претендуя на полноту изложения, мы рас­смотрим лишь самые важные, действительно незаменимые в исследованиях меры связи - /--Пирсона, r-Спирмена и т-Кендалла". Их общей особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в ко­личественной шкале - ранговой или метрической.

Вообще говоря, любое эмпирическое исследование сосредоточено на изу­чении взаимосвязей двух или более переменных.

ПРИМЕРЫ

Приведем два примера исследования влияния демонстра­ции сцен насилия по ТВ на агрессивность подростков. 1. Изучается взаимосвязь двух переменных, измеренных в количественной (ранговой или метрической) шка­ле: 1)«время просмотра телепередач с насилием»; 2) «агрессивность».

Читается как тау-Кендалла.


ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

2. Изучается различие в агрессивности 2-х или более групп подростков, отличаю­щихся длительностью просмотра телепередач с демонстрацией сцен насилия.

Во втором примере изучение различий может быть представлено как исследование взаимосвязи 2-х переменных, одна из которых - номинативная (длительность про­смотра телепередач). И для этой ситуации также разработаны свои коэффициенты корреляции.

Любое исследование можно свести к изучению корреляций, благо изобре­тены самые различные коэффициенты корреляции для практически любой исследовательской ситуации. Но в дальнейшем изложении мы будем разли­чать два класса задач:

П исследование корреляций - когда две переменные представлены в чис­ловой шкале;

исследование различий - когда хотя бы одна из двух переменных пред­ставлена в номинативной шкале.


Такое деление соответствует и логике построения популярных компьютер­ных статистических программ, в которых в меню Корреляции предлагаются три коэффициента (/--Пирсона, r-Спирмена и х-Кендалла), а для решения других исследовательских задач предлагаются методы сравнения групп.

ПОНЯТИЕ КОРРЕЛЯЦИИ

Взаимосвязи на языке математики обычно описываются при помощи фун­кций, которые графически изображаются в виде линий. На рис. 6.1 изобра­жено несколько графиков функций. Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь - нелинейная. Если увеличение одной перемен­ной связано с увеличением другой, то связь - положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь - отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функ­ция - монотонная; в противном случае функцию называют немонотонной.

Функциональные связи, подобные изображенным на рис. 6.1, являются иде-ализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных - веса и длины тела (линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погреш­ностей измерения и пр.

Рис. 6.1. Примеры графиков часто встречающихся функций

В психологии, как и во многих других науках, при изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество воз­можных причин изменчивости этих признаков. Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значе­ний другой переменной (и наоборот). Простейшим примером является соотно­шение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной - идеальной математической функции, даже при всех ухищрениях исследова­теля по учету стройности или полноты испытуемых. (Вряд ли на этом основа­нии кому-то придет в голову отрицать факт наличия строгой функциональ­ной связи между длиной и весом тела.)

Итак, в психологии, как и во многих других науках, функциональная вза­имосвязь явлений эмпирически может быть выявлена только как вероятно­стная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания - график, оси которого со­ответствуют значениям двух переменных, а каждый испытуемый представля­ет собой точку (рис. 6.2). В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.

06.06.2018 17 887 0 Игорь

Психология и общество

Все в мире взаимосвязано. Каждый человек на уровне интуиции пытается найти взаимосвязи между явлениями, чтобы иметь возможность влиять на них и управлять ними. Понятие, которое отражает эту взаимосвязь, называется корреляцией. Что она означает простыми словами?

Содержание:

Понятие корреляции

Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).



Пример: возьмем два вида взаимосвязи:

  1. Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
  2. Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).

Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.

Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.

Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.

Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.




Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье . Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон . Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.

Виды корреляции

По значимости – высокозначимая, значимая и незначимая.

Виды

чему равен r

Высокозначимая

r соответствует уровню статистической значимости p<=0,01

Значимая

r соответствует p<=0,05

Незначимая

r не достигает p>0,1

Отрицательная (уменьшение значения одной переменной ведет к росту уровня другой: чем больше у человека фобий, тем меньше вероятность занять руководящую должность) и положительная (если рост одной величины влечет за собой увеличение уровня другой: чем больше нервничаешь, тем больше вероятность заболеть). Если связи между переменными нет, то тогда такая корреляция называется нулевой.

Линейная (когда одна величина возрастает или убывает, вторая тоже увеличивается или уменьшается) и нелинейная (когда при изменении одной величины характер изменения второй невозможно описать с помощью линейной зависимости, тогда применяются другие математические законы – полиномиальной, гиперболической зависимости).

По силе .

Коэффициенты




В зависимости от того, к какой шкале относятся исследуемые переменные, рассчитываются разные виды коэффициентов корреляции:

  1. Коэффициент корреляции Пирсона, коэффициент парной линейной корреляции или корреляция моментов произведений рассчитывается для переменных с интервальной и количественной шкалой измерения.
  2. Коэффициент ранговой корреляции Спирмена или Кендалла – когда хотя бы одна из величин имеет порядковую шкалу либо не является нормально распределённой.
  3. Коэффициент точечной двухрядной корреляции (коэффициент корреляции знаков Фехнера) – если одна из двух величин является дихотомической.
  4. Коэффициент четырёхполевой корреляции (коэффициент множественной ранговой корреляции (конкордации) – если две переменные дихотомические.

Коэффициент Пирсона относится к параметрическим показателям корреляции, все остальные – к непараметрическим.

Значение коэффициента корреляции находится в пределах от -1 до +1. При полной положительной корреляции r = +1, при полной отрицательной – r = -1.

Формула и расчет





Примеры

Необходимо определить взаимосвязь двух переменных: уровня интеллектуального развития (по данным проведенного тестирования) и количества опозданий за месяц (по данным записей в учебном журнале) у школьников.

Исходные данные представлены в таблице:

Данные по уровню IQ (x)

Данные по количеству опозданий (y)

Сумма

1122

Среднее арифметическое

112,2


Чтобы дать правильную интерпретацию полученному показателю, необходимо проанализировать знак коэффициента корреляции (+ или -) и его абсолютное значение (по модулю).

В соответствии с таблицей классификации коэффициента корреляции по силе делаем вывод о том, rxy = -0,827 – это сильная отрицательная корреляционная зависимость. Таким образом, количество опозданий школьников имеет очень сильную зависимость от их уровня интеллектуального развития. Можно сказать, что ученики с высоким уровнем IQ опаздывают реже на занятия, чем ученики с низким IQ.



Коэффициент корреляции может применяться как учеными для подтверждения или опровержения предположения о зависимости двух величин или явлений и измерения ее силы, значимости, так и студентами для проведения эмпирических и статистических исследований по различным предметам. Необходимо помнить, что этот показатель не является идеальным инструментом, он рассчитывается лишь для измерения силы линейной зависимости и будет всегда вероятностной величиной, которая имеет определенную погрешность.

Корреляционный анализ применяется в следующих областях:

  • экономическая наука;
  • астрофизика;
  • социальные науки (социология, психология, педагогика);
  • агрохимия;
  • металловедение;
  • промышленность (для контроля качества);
  • гидробиология;
  • биометрия и т.д.

Причины популярности метода корреляционного анализа:

  1. Относительная простота расчета коэффициентов корреляции, для этого не нужно специальное математическое образование.
  2. Позволяет рассчитать взаимосвязи между массовыми случайными величинами, которые являются предметом анализа статистической науки. В связи с этим этот метод получил широкое распространение в области статистических исследований.

Надеюсь, теперь вы сможете отличить функциональную взаимосвязь от корреляционной и будете знать, что когда вы слышите по телевидению или читаете в прессе о корреляции, то под ней подразумевают положительную и достаточно значимую взаимозависимость между двумя явлениями.

Корреляция — степень связи между 2-мя или несколькими независимыми явлениями.

Корреляция бывает положительной и отрицательной.

Положительная корреляция (прямая) возникает при одновременном изменении 2-х переменных величин в одинаковых направлениях (в положительном или отрицательном). Например, взаимосвязь между количеством пользователей, приходящих на сайт из поисковой выдачи и нагрузкой на сервер: чем больше пользователей, тем больше нагрузка.

Корреляция отрицательна (обратная) , если изменение одной величины приводит противоположному изменению другой. Например, с увеличением налоговой нагрузки на компании уменьшается их прибыль. Чем больше налогов, тем меньше денег на развитие.

Эффективность корреляции как статистического инструмента заключается в возможности выражения связи между двумя переменными при помощи коэффициента корреляции.

Коэффициент корреляции (КК) находится в диапазоне чисел от -1 до 1.

При значении КК равным 1, следует понимать, что при каждом изменении 1-й переменной происходит эквивалентное изменение 2-й переменной в том же направлении.


Если значение КК равно -1, то при каждом изменении происходит эквивалентное изменение второй переменной в противоположном направлении.


Чем ближе корреляция к -1 или 1, тем сильнее связь между переменными. При нулевом значении (или близким к 0) значимая связь между 2-мя переменными отсутствует или очень минимальна.

Данный метод обработки статистической информации популярен в экономических, технических, социальных и других науках в виду простоты подсчета КК, простотой интерпретации результатов и отсутствия необходимости владения математикой на высоком уровне.

Корреляционная зависимость отражает только взаимосвязь между переменными и не говорит о причинно-следственных связях: положительная или отрицательная корреляция между 2-мя переменными не обязательно означает, что изменение одной переменной вызывает изменение другой.

Например, есть положительная корреляция между увеличением зарплаты менеджеров по продажам и качеством работы с клиентами (повышения качества обслуживания, работа с возражениями, знание положительных качеств продукта в сравнении с конкурентами) при соответствующей мотивации персонала. Увеличившийся объем продаж, а следовательно и зарплата менеджеров, вовсе не означает что менеджеры улучшили качество работы с клиентами. Вполне вероятно, что случайно поступили крупные заказы и были отгружены или отдел маркетинга увеличил рекламный бюджет или произошло еще что-то.

Возможно существует некая третья переменная, влияющая на причину наличия или отсутствия корреляции.

Коэффициент корреляции не рассчитывается:

  • когда соотношение между двумя переменными не линейное, например, квадратичное;
  • в данных имеется больше 1-го наблюдения по каждому случаю;
  • имеются аномальные наблюдения (выбросы, «отщепенцы»);
  • данные содержат ярко выраженные подгруппы наблюдений.

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. Для этого используются методы корреляции.

  1. Виды проявления количественных связей между признаками
    • функциональная связь
    • корреляционная связь
  2. Определения функциональной и корреляционной связи

    Функциональная связь - такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для физико-математических процессов.

    Корреляционная связь - такая связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов.

  3. Практическое значение установления корреляционной связи . Выявление причинно-следственной между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.)

    Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др.

  4. Величина, характеризующая направление и силу связи между признаками . Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1
  5. Способы представления корреляционной связи
    • график (диаграмма рассеяния)
    • коэффициент корреляции
  6. Направление корреляционной связи
    • прямая
    • oбратная
  7. Сила корреляционной связи
    • сильная: ±0,7 до ±1
    • средняя: ±0,3 до ±0,699
    • слабая: 0 до ±0,299
  8. Методы определения коэффициента корреляции и формулы
    • метод квадратов (метод Пирсона)
    • ранговый метод (метод Спирмена)
  9. Методические требования к использованию коэффициента корреляции
    • измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту)
    • расчет может производиться с использованием абсолютных или производных величин
    • для вычисления коэффициента корреляции используются не сгруппированные вариационные ряды (это требование применяется только при вычислении коэффициента корреляции по методу квадратов)
    • число наблюдений не менее 30
  10. Рекомендации по применению метода ранговой корреляции (метод Спирмена)
    • когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных
    • когда признаки представлены не только количественными, но и атрибутивными значениями
    • когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года и др.)
  11. Рекомендации к применению метода квадратов (метод Пирсона)
    • когда требуется точное установление силы связи между признаками
    • когда признаки имеют только количественное выражение
  12. Методика и порядок вычисления коэффициента корреляции

    1) Метод квадратов

    2) Ранговый метод

  13. Схема оценки корреляционной связи по коэффициенту корреляции
  14. Вычисление ошибки коэффициента корреляции
  15. Оценка достоверности коэффициента корреляции,полученного методом ранговой корреляции и методом квадратов

    Способ 1
    Достоверность определяется по формуле:

    Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.

    Способ 2
    Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.

на применение метода квадратов

Задание: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод.

Таблица 1

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

Решение .
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды
(в градусах)
Количество кальция в воде
(в мг/л)
d х d у d х х d у d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х =Σ х / n М у =Σ у / n Σ d х x d у =7078 Σ d х 2 =982 Σ d y 2 =51056
М х =120/6=20 М y =852/6=142
  1. Определить средние величины M x ряду вариант "х" и М у в ряду вариант "у" по формулам:
    М х = Σх/n (графа 1) и
    М у = Σу/n (графа 2)
  2. Найти отклонение (d х и d у) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
    d х = х - М х (графа 3) и d y = у - М у (графа4).
  3. Найти произведение отклонений d x х d y и суммировать их: Σ d х х d у (графа 5)
  4. Каждое отклонение d x и d у возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ d x 2 = 982 (графа 6) и Σ d y 2 = 51056 (графа 7).
  5. Определить произведение Σ d x 2 х Σ d y 2 и из этого произведения извлечь квадратный корень
  6. Полученные величины Σ (d x x d y) и √(Σd x 2 x Σd y 2) подставляем в формулу расчета коэффициента корреляции:
  7. Определить достоверность коэффициента корреляции:
    1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:

    Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.

    2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см. приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше табличного (r табл = + 0,917 при р = 99%).

    Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная : r ху = + 0,99, р > 99,9%).

    на применение рангового метода

    Задание: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

    Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.

    Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.

    Таблица 2

    Стаж работы в годах Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
    X Y d(х-у) d 2
    До 1 года 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 и более 6 5 1 +4 16
    Σ d 2 = 38,5

    Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)

    Число степеней свободы - 2 Уровень вероятности р (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
    2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
    5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

Коэффициент корреляции

Корреля́ция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции .

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.

Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени.

Пусть X ,Y - две случайные величины, определённые на одном вероятностном пространстве . Тогда их коэффициент корреляции задаётся формулой:

,

где cov обозначает ковариацию , а D - дисперсию , или, что то же самое,

,

где символ обозначает математическое ожидание .

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы , к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).

Коэффициент корреляции Кенделла

Используется для измерения взаимной неупорядоченности.

Коэффициент корреляции Спирмена

Свойства коэффициента корреляции

если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет: . , где . Более того в этом случае знаки и k совпадают: .

Корреляционный анализ

Корреляционный анализ - метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции ) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют . В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная , если одна переменная растёт, а вторая уменьшается, корреляция отрицательная .

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = s i n (x ) и B = c o s (x ) , то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону s i n 2 (x ) + c o s 2 (x ) = 1 .

Ограничения корреляционного анализа

Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

  1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
  2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных . Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
  3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение , агрохимия , гидробиология , биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук , фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

См. также

Wikimedia Foundation . 2010 .

Смотреть что такое "Коэффициент корреляции" в других словарях:

    Коэффициент корреляции - Математическое представление о степени связи между двумя сериями измерений. Коэффициент +1 обозначает четкую позитивную корреляцию: высокие показатели по одному параметру (например, рост) точно соотносятся с высокими показателями по другому… … Большая психологическая энциклопедия

    - ρ μера силы линейной связи между случайными величинами X и У: , где ЕХ математическое ожидание X; DX дисперсия X, EY математическое ожидание У; DY дисперсия У; 1 ≤ ρ ≤ 1. Если X, Y линейно связаны, то ρ = ± 1. Для… … Геологическая энциклопедия

    Англ. coefficient, correlation; нем. Korrelationskoeffizient. Мера тесноты связи двух или более переменных. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

    коэффициент корреляции - — Тематики биотехнологии EN correlation coefficient … Справочник технического переводчика

    Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

    коэффициент корреляции - 1.33. коэффициент корреляции Отношение ковариации двух случайных величин к произведению их стандартных отклонений: Примечания 1. Эта величина всегда будет принимать значения от минус 1 до плюс 1, включая крайние значения. 2. Если две случайные… … Словарь-справочник терминов нормативно-технической документации

    КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - (correlation coefficient) мера ассоциации одной переменной с другой. См. Корреляция; Коэффициент корреляции производного значения Пирсона; Коэффициент ранговой корреляции спирмена … Большой толковый социологический словарь

    Коэффициент корреляции - CORRELATION COEFFICIENT Показатель степени линейной зависимости между двумя переменными величинами: Коэффициент корреляции может изменяться в пределах от 1 до 1. Если большим значениям одной величины соответствуют большие значения другой (и… … Словарь-справочник по экономике