Корреляция: определение, виды, границы изменения коэффициента корреляции. — КиберПедия 

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Корреляция: определение, виды, границы изменения коэффициента корреляции.

2017-12-22 695
Корреляция: определение, виды, границы изменения коэффициента корреляции. 0.00 из 5.00 0 оценок
Заказать работу

Корреляция (от лат. correlatio «соотношение, взаимосвязь») или корреляционная зависимость — это статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.

Коэффициенты корреляции изменяются в пределах от -1 до +1. Значение -1 означает, что переменные имеют строгую отрицательную корреляцию. Значение +1 означает, что переменные имеют строгую положительную корреляцию. Значение 0 означает отсутствие корреляции.

Наиболее часто используемый коэффициент корреляции Пирсона r называется также линейной корреляцией, т.к. измеряет степень линейных связей между переменными.

Квад­рат коэффициента корреляции (R Square) зависимой и независимой перемен­ных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерми­нации. Коэффициент детерминации , таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) вли­янием другой переменной.

Очень часто две переменные коррелируют друг с другом только за счет того,что обе они согласованно меняются под влиянием некоторой третьей пере­менной. Иными словами, на самом деле связь между соответствующими свой­ствами отсутствует, но проявляется в статистической взаимосвязи (корреляции) под влиянием общей причины. Для численного определения степени взаимосвязи двух переменных при усло­вии исключения влияния третьей применяют коэффициент частной корреляции (PartialCorrelation). Для вычисления частной корреляции достаточно знать три
коэффициента корреляции r -Пирсона между переменными X,Y и Z.

Если обе переменные, между которыми изучается связь, представлены впорядковой шкале, или одна из них — в порядковой, а другая — в метричес­кой, то применяются ранговые коэффициенты корреляции: ρ -Спирмена илиτ-Кенделла. И тот, и другой коэффициент требует для своего примененияпредварительного ранжирования обеих переменных.

Если члены группы численностью N были ранжированы сначала по пере­менной X, затем — по переменной Y, то корреляцию между переменными X и Y можно получить, просто вычислив коэффициент r -Пирсона для двух рядоврангов. При условии отсутствия связей в рангах (т. е. отсутствия повторяю­щихся рангов) по той и другой переменной, формула для r -Пирсона можетбыть существенно упрощена в вычислительном отношении и преобразованав формулу, известную как ρ-Спирмена. Коэффициент корреляции ρ-Спирмена (Spearman’srho) равен коэффициен­ту корреляции r -Пирсона, вычисленному для двух предварительно ранжиро­ванных переменных.

Альтернативу корреляции Спирмена для рангов представляет корреляция τ-Кендалла. В основе корреляции, предложенной М. Кендаллом, лежит идеяо том, что о направлении связи можно судить, попарно сравнивая между со­бой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y, то это свидетельствует о положительной свя­зи, если не совпадает — то об отрицательной связи.

Если одна из двух переменных представлена в но­минативной шкале, а другая — в числовой (ранговой или метрической), тосвязь между этими переменными лучше изучать путем сравнения групп поуровню выраженности числовой переменной.То же касается проблемы изучения связи между двумя номинативнымипеременными. Хотя и для этого случая существуют коэффициенты корреля­ции (К- Чупрова, С- Пирсона), но возможность их интерпретации весьмаограничена, в частности потому, что они отражают лишь силу связи, но не еенаправление. Поэтому и в этом случае проблему связи между двумя номинативными переменными лучше изучать путем сравнения градаций одной пе­ременной по распределению другой переменной.

Исключением можно считать случай изучения связи двух бинарных перемен­ных. Бинарная переменная имеет только две градации, обычно обозначаемые как 0 и 1. Примеры таких переменных: пол (мужской, женский), тревожность (низкая, высокая), успешность (низкая, высокая) и т. д.В этом случае допустимо применение r-Пирсона непосред­ственно к исходным данным — двум бинарным переменным, принимающимзначение 0 или 1, измеренным для каждого члена выборки численностью N.Результат применения r-Пирсона к двум бинарным переменным называется «фи-коэффициентом сопряженности» (Phi). Итак, φ-коэффициент есть просто r -Пирсона, вычисленный для бинар­ных данных. Интерпретация φ-коэффициента подобна интерпретации r -Пирсо­на.

Меры центральной тенденции.

Мера центральной тенденции (CentralTendency) — это число, характеризую­щее выборку по уровню выраженности измеренного признака.

Существуют три способа определения «центральной тенденции», каждо­му из которых соответствует своя мера: мода, медиана и выборочное среднее.

Мода (Mode) — это такое значение из множества измерений, которое встре­чается наиболее часто. Моде, или модальному интервалу признака, соответ­ствует наибольший подъем (вершина) графика распределения частот. Если график распределения частот имеет одну вершину, то такое распределение называется унимодальным.

Когда два соседних значения встречаются одинаково часто и чаще, чем любое другое значение, мода есть среднее этих двух значений.

Распределение может иметь и не одну моду. Когда все значения встреча­ются одинаково часто, принято считать, что такое распределение не имеет моды.

Бимодальное распределение имеет на графике распределения две вершины, даже если частоты для двух вершин не строго равны. В последнем случае вы­деляют большую и меньшую моду. Во всей группе может быть и несколько локальных вершин распределения частот. Тогда выделяют наибольшую моду и локальные моды.

Еще раз отметим, что мода — это значение признака, а не его частота.

Медиана (Median) — это такое значение признака, которое делит упорядо­ченное (ранжированное) множество данных пополам так, что одна половина всех значений оказывается меньше медианы, а другая — больше. Таким обра­зом, первым шагом при определении медианы является упорядочивание (ран­жирование) всех значений по возрастанию или убыванию. Далее медиана определяется следующим образом:

· если данные содержат нечетное число значений (8, 9, 10, 13, 15), то ме­диана есть центральное значение, т. е. Md= 10;

· если данные содержат четное число значений (5, 8, 9, 11), то медиана есть точка, лежащая посередине между двумя центральными значения­ми, т. е. Md= (8+9)/2 = 8,5.

Среднее (Mean) (Мх — выборочное среднее, среднее арифметическое) — определяется как сумма всех значений измеренного признака, деленная на количество суммированных значений.

 

Меры изменчивости.

Меры изменчивости(Dispersion) применяются в психологии для численного выраже­ния величины межиндивидуальной вариации признака.

Наиболее простой и очевидной мерой изменчивости является размах, ука­зывающий на диапазон изменчивости значений. Размах (Range)— это просто разность максимального и минимального значений:

 

Ясно, что это очень неустойчивая мера изменчивости, на которую влияют любые возможные «выбросы». Более устойчивыми являются разновидности размаха: размах от 10 до 90-го процентиля (Р90 - Р10) или междуквартильный размах (Р75 — Р25). Последние две меры изменчивости находят свое применение для описания вариации в порядковых данных. А для метрических данных используется дисперсия.

Дисперсия (Variance) — мера изменчивости для метрических данных, про­порциональная сумме квадратов отклонений измеренных значений от их арифметического среднего:

Чем больше изменчивость в данных, тем больше отклонения значений от среднего, тем больше величина дисперсии. Величина дисперсии получается при усреднении всех квадратов отклонений:

Следует отличать теоретическую (генеральную) дисперсию — меру измен­чивости бесконечного числа измерений (в генеральной совокупности, попу­ляции в целом) и эмпирическую, или выборочную, дисперсию – для реально измеренного множества значений признака. Выборочное значение в стати­стике используется для оценки дисперсии в генеральной совокупности. Выше указана формула для генеральной (теоретической) дисперсии (Dx), которая, понятно, не вычисляется. Для вычислений используется формула выбороч­ной (эмпирической) дисперсии (Dx), отличающаяся знаменателем:

Стандартное отклонение (Std. deviation)(сигма, среднеквадратическое от­клонение) — положительное значение квадратного корня из дисперсии:

На практике чаще используется именно стандартное отклонение, а не дис­персия. Это связано с тем, что сигма выражает изменчивость в исходных еди­ницах измерения признака, а дисперсия — в квадратах исходных единиц.

Свойства дисперсии:

1. Если значения измеренного признака не отличаются друг от друга (рав­ны между собой) — дисперсия равна нулю. Это соответствует отсутствию из­менчивости в данных.

2. Прибавление одного и того же числа к каждому значению переменной не меняет дисперсию. Прибавление константы к каждому значению переменной сдвигает график распределения этой переменной на эту константу (меняется среднее), но из­менчивость (дисперсия) при этом остается неизменной.

3. Умножение каждого значения переменной на константу с изменяет дис­персию в с2 раз.

4. При объединении двух выборок с одинаковой дисперсией, но с разными средними значениями дисперсия увеличивается.


Поделиться с друзьями:

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.014 с.