Лекция 12. Корреляционный анализ — КиберПедия 

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

Лекция 12. Корреляционный анализ

2017-10-10 79
Лекция 12. Корреляционный анализ 0.00 из 5.00 0 оценок
Заказать работу

1). Назначение и сущность корреляционного анализа. Классификация по видам.

2). Однофакторный корреляционный анализ.

 

Назначение и сущность корреляционного анализа. Классификация по видам.

Корреляционным анализом называется совокупность методов статистической обработки результатов испытаний, зависящих от различных одновременно действующих факторов, с целью анализа и оценки существенности влияния данных факторов на отклик.

В отличие от дисперсионного анализа, при проведении которого любые факторы рассматриваются как качественные, в корреляционном анализе могут рассматриваться как качественные, так и количественные факторы, хотя предпочтение отдается последним.

Сущность корреляционного анализа заключается в установлении стохастической зависимости между откликом и факторами и в определении существенности влияния факторов на отклик, степени тесноты стохастической связи между ними. Смысл понятия «корреляционная зависимость» удобнее рассматривать для случая одномерных фактора и отклика, образующих систему случайных величин (X,Y).

Прежде всего, необходимо отметить, что корреляционная зависимость является разновидностью стохастической зависимости и уже по этой причине не является жесткой, функциональной. При изучении такой зависимости между компонентами системы (X,Y) возможны 2 различных подхода к формированию исходных предположений. Первый заключается в том, что определяемые значения переменной X задаются, т.е. не являются случайными. Тогда каждому фиксированному значению х соответствуют некоторые генеральные распределения Y/х с математическим ожиданием M[Y/x] и дисперсией D[Y/x], а наблюдаемые на опыте значения у рассматриваются как выборочные значения из этой генеральной совокупности. Зависимость M[Y/x] = φу(х) называется, как уже отмечалось, регрессией Y на Х.

Второй подход к формированию исходных предположений состоит в том, что реализации случайной переменной Х, т.е. значения х, не задаются, а генерируются датчиком нормально распределенных чисел. А так как одно из основных допущений корреляционного анализа, как и дисперсионного, заключается в предположении о том, что участвующие в анализе переменные распределены нормально, это следует признать, что в этом случае реализации Х и Y, наблюдаемые на опыте, будут представлять собою выборку из двумерного нормального распределения. При таком варианте исходных предположений компоненты системы (X,Y) становятся как бы полностью «равноправными». Вследствие чего необходимо вести речь о регрессии Y на Х, но и о регрессии Х на Y, т.е. о зависимости:

M [Х/у] = φх(у)

Поэтому приходим к выводу, что корреляционная зависимость, как разновидность стохастической, может быть представлена двумя уравнениями регрессии - φу(х) и φх(у).

Зависимости φу(х) и φх(у) могут быть как линейными, так и не линейными. Соответственно различают линейный и нелинейный корреляционный анализ. Обычно предполагается линейный характер этих регрессий. В этом предположении заключается второе из основных допущений корреляционного анализа (первое предполагает нормальность распределения компонент Х и Y). Оно гласит: регрессия имеет линейный или близкий к линейному характер.

Поэтому обычно полагают:

φу(х) = β0 + βх (12.1)

φх(у) = γ0 + γy

Такая связь или корреляция называется парной. Если с увеличением одной из компонент условное среднее другой также возрастает, то корреляция называется положительной, в противном случае – отрицательной.

Для определения коэффициентов в уравнениях (12.1) используются диаграммы или корреляционные поля. Каждая точка такого поля имеет координаты xi, yi , соответствующие значениям переменных в i -том опыте. Обработка опытных данных ведется методом наименьших квадратов. В итоге получают оценку b0 для β0, b для β и т.д.

Эта процедура называется параметризацией уравнений (12.1).

Определение характера зависимостей φу(х) и φх(у), т.е. установление формы стохастической связи между компонентами Х и Y, является одной из основных задач корреляционного анализа. Вторая основная задача заключается в определении существенности этой связи, т.е. существенности взаимовлияния компонент Х и Y. С решением этих задач связанны основные процедуры корреляционного анализа, рассмотренные в следующем параграфе.

В заключение отметим основные виды корреляционного анализа. Они различаются:

-по количеству факторов – однофакторный, многофакторный (множественный);

-по количеству откликов – одномерный, многомерный (векторный);

-по форме стохастической связи – линейный, нелинейный.


 

Однофакторный корреляционный анализ.

Основные этапы и соответствующие им процедуры корреляционного анализа рассмотрим на примере однофакторного одномерного анализа, позволяющего изучить взаимовлияние двух случайных компонент – фактора Х и отклика Y.

Первым этапом корреляционного анализа является установление наличия стохастической связи между компонентами Х и Y. Для этого используются рассмотренные ранее процедуры дисперсионного анализа. Если по итогам дисперсионного анализа делается вывод о наличии стохастической связи, то переходят ко второму этапу.

Вторым этапом является установление формы стохастической связи, т.е. решение вопроса о том, линейна она или нелинейна. Решение данной задачи может проводиться качественными и количественными методами.

Качественные методы опираются на анализ поля корреляции, а количественные – на методы построения кривой, наилучшим образом аппроксимирующей результаты наблюдений. В случае использования количественных методов выдвигается гипотеза о типе кривой, а затем осуществляется её параметризация, например, с помощью метода наименьших квадратов. В полном объеме эта процедура рассматривается на заключительных этапах регрессионного анализа.

Третьим, заключительным этапом корреляционного анализа является определение существенности стохастической связи между фактором и откликом.

Если стохастическая связь между переменными является линейной, то мерой этой связи служит парный коэффициент корреляции, определяемый выражением:

rхyхухϬу =М[(X-mх)(Y-mу)] /ϬхϬу (12.2)

Если исследуемые переменные связаны функциональной зависимостью, то rхy=±1, а в случае их независимости rхy=0.

На практике используется оценка парного коэффициента корреляции, определяемая по опытным данным:

(12.3)

 

Значимость этой оценки проверяется на основе гипотез:

H0: rхy = 0

H1: rхy ≠ 0

В случае большой выборки оценка распределена по нормальному закону с параметрами:

M [ ] = 0

D [ ] = (1- rхy2)2 /n

Поэтому основная гипотеза может быть проверена с использованием Z – статистики, при формировании которой следует использовать оценку дисперсии D [ ], т.е.

Если выборка не является большой, то используется статистика

, (12.4)

которая подчиняется t – распределению с числом степеней свободы υ = n-2.

В случае отклонения основной гипотезы выборочный коэффициент корреляции признается значимым с выбранным уровнем значимости. Он характеризует степень приближения стохастической зависимости между переменными к линейной. Для количественной оценки нелинейности используется так называемый коэффициент детерминации ɳху, который определяется как rхy2. Этот коэффициент позволяет ответить на вопрос о том, каково качество описания зависимости с помощью уравнения регрессии. Очевидно, чем теснее наблюдения примыкают к линии регрессии, тем лучше она описывает соответствующую зависимость переменных и с большей надежностью может быть применена для оценивания значений отклика по заданным значениям фактора.

Можно показать, что rхy2 равен отношению межуровневой дисперсии к общей дисперсии отклика, откуда следует, что коэффициент детерминации характеризует долю так называемой объясненной регрессией дисперсии в общей величине дисперсии. Чем теснее наблюдения примыкают к линии регрессии, тем эта доля выше. Например, если rхy =0,9, то ɳху = rхy2 = 0,81. Это значит, что 81% общей дисперсии (общей для среднего значения отклика) определяется уравнением регрессии, т.е. корреляционная связь между откликом и фактором вполне удовлетворительно может быть представлена линейным уравнением, т.к. доля нелинейности сравнительно невелика.

Проверкой значимости оценки rхy завершаются основные процедуры корреляционного анализа.

 


Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Механическое удерживание земляных масс: Механическое удерживание земляных масс на склоне обеспечивают контрфорсными сооружениями различных конструкций...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.016 с.