Тема №16 «Корреляционно-регрессионный анализ» — КиберПедия 

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Тема №16 «Корреляционно-регрессионный анализ»

2017-12-13 382
Тема №16 «Корреляционно-регрессионный анализ» 0.00 из 5.00 0 оценок
Заказать работу

Цель: научиться составлять выборочные уравнения линейной регрессии в случае сгруппированных данных, вычислять выборочный коэффициент линейной корреляции и проводить оценку его значимости, проверять значимость уравнения линейной регрессии с помощью дисперсионного анализа, делать прогноз значений зависимой переменной.

 

Краткие теоретические сведения:

Основная задача корреляционного анализа – выявление связи между случайными переменными и оценка её тесноты.

Статистической зависимостью называется зависимость, при которой изменение одной из величин влечёт изменение распределения других величин.

Частным случаем статистической зависимости является корреляционная зависимость, при которой изменение одной из величин изменяет среднее значение других.

 

 

 

 

В психологических исследованиях имеет место статистический разброс данных: при одном и том же значении одной величины другая вели­чина принимает несколько значений и наоборот. Графическое изображение экспериментальных данных называется диаграммой рассеяния.

 

 

 

Необходимы ответы на вопросы:

1) какой вид имеет тенденция,

2) какая теснота между тенденцией и разбросом данных.

Для этого необходимо не сгруппированные данные подвергаются первичной обработке. Составляется корреляционная таблица.

      …    

где , – середины интервалов, , , .

Для ответа на первый вопрос используем аппроксимацию. Наиболее простой вариант – квадратическая аппроксимация, которая обосновывает метод наименьших квадратов.

Суть его состоит в том, что сумма квадратов отклонений между экспериментальным и теоретическим значениями должна быть минимальной:

.

Если , тогда .

Из теории функции нескольких переменных известно, что для минимума необходимо равенство нулю всех частных производных:

Решив данную систему относительно неизвестных коэффициентов мы получим уравнения, которые называются уравнениями регрессии:

- выборочное уравнение регрессии на ,

- выборочное уравнение регрессии на .

Для линейной зависимости:

или

,

где и – выборочные коэффициенты регрессии на и на .

Для их нахождения используются формулы и данные корреляционной таблицы:

, .

Для ответа на второй вопрос вводим еще одну характеристику, учитывающую разброс данных вокруг линии регрессии, то есть тесноту связи - выборочный коэффициент корреляции:

Знак ± берётся равным знаку коэффициентов регрессии, которые оба или положительны или отрицательны. При этом один коэффициент регрессии по абсолютной величине больше 1, другой - меньше 1. Коэффициент корреляции не имеет размерности и .

Так как выборка случайна, то отличное от нуля значение выборочного коэффициента линейной корреляции необходимо проверить на значимость.

1) на уровне a = 0,05 выдвигаем нулевую гипотезу при конкурирующей ,

2) в качестве критерия проверки используем случайную величину ,

3) табличное значение находим по таблице распределения Стьюдента,

4) если , то принимаем нулевую гипотезу, а значит, генеральный коэффициент линейной корреляции равен нулю.

Основная задача регрессионного анализа – установление формы и изучение зависимости между переменными, оценка функции регрессии, прогноз значений зависимой переменной.

В регрессионном анализе рассматривается односторонняя зависимость случайной зависимой переменной от одной (или нескольких) неслучайной независимой переменной : , где - возмущение, характеризующее отклонение от функции регрессии.

Будем рассматривать только линейный регрессионный анализ.

определяется по МНК, а воздействие неучтённых случайных факторов и ошибок наблюдений в модели находится с помощью дисперсии возмущений или остаточной дисперсии, несмещённой оценкой этой дисперсии является выборочная остаточная дисперсия:

,

где – групповая средняя, найденная по уравнению регрессии, – выборочная оценка возмущения или остаток регрессии.

Доверительный интервал прогноза среднего значения:

,

где

,

находим по таблице распределения Стьюдента

При определении доверительного интервала для индивидуальных значений зависимой переменной вместо берём

.

Доверительный интервал для прогнозов индивидуальных значений определяется формулой:

.

Проверка значимости уравнения регрессии (используется дисперсионный анализ):

Вычисляем несмещённые оценки дисперсий зависимой переменной, обусловленных соответственно регрессией и воздействием неучтённых случайных факторов и ошибок, - число оцениваемых параметров уравнения регрессии, - число наблюдений по формулам:

,

, ,

, .

Гипотеза о значимости уравнения регрессии принимается, если

, где уровень значимости, и отвергается, если .

Контрольные вопросы:

1. Статистическая и корреляционная зависимость.

2. Диаграмма рассеяния.

3. Корреляционная таблица.

4. Расчет средних по данным корреляционной таблицы.

5. Суть метода наименьших квадратов.

6. Выборочные коэффициенты линейной регрессии, их свойства и геометрический смысл.

7. Выборочные уравнения линейной регрессии.

8. Выборочный коэффициент линейной корреляции и его свойства.

9. Проверка гипотезы о значимости выборочного коэффициента линейной регрессии.

10. Основная задача регрессионного анализа.

11. Основные предпосылки регрессионного анализа.

12. Возмущения и дисперсия возмущений.

13. Доверительный интервал прогноза среднего значения.

14. Доверительный интервал прогноза индивидуального значения.

15. Проверка значимости уравнения регрессии.

Контрольные задания:

1. При исследовании пяти групп людей на степень подверженности гипнозу использовались различные методики. Получены следующие данные:

1,0 1,5 2,0 2,5 3,0
1,0 1,3 1,4 1,9 2,0

Проверить целесообразность линейной аппроксимации зависимости результатов исследований от конкретной методики и определить коэффициенты этой зависимости МНК.

2. Используя метод наименьших квадратов, сгладить с помощью функций заданного вида следующие табличные зависимости:

а)

x -1        
y          

 

б)

x            
y            

 

в)

x -2 -1        
y   0,8 0,4 0,1    

 

 

3. Составить выборочные уравнения линейной регрессии Y на Х и Х на Y, вычислить выборочный коэффициент корреляции по выборочным данным, представленным в таблице:

             
               
               
               
               
               

4. При обследовании 50 учеников 4-го класса получены следующие данные о весе и росте учащихся:

(24,125) (28,128) (26,128) (30,133) (25,127) (26,127) (27,127) (28,130)

(26,127) (27,128) (27,128) (28,129) (28,130) (24,126) (28,130) (29,131)

(26,127) (28,131) (26,128) (29,130) (27,130) (29,130) (27,129) (26,127)

(28,129) (28,130) (25,128) (28,129) (29,131) (27,130) (27,129) (29,131)

(28,129) (27,128) (25,126) (27,129) (28,129) (27,129) (29,129) (27,128)

(28,129) (28,130) (26,128) (25,126) (30,132) (25,127) (26,129) (26,129)

(27,128) (29,132)

Представить результаты обследования в виде корреляционной таблицы. По данным корреляционной таблицы оценить тесноту связи между весом (X) и ростом (Y) учеников четвертого класса и составить выборочное уравнение линейной регрессии X на Y.

5. Проверить значимость выборочных коэффициентов корреляции, полученных в задачах 2 и 3 при .

Задания для домашней работы:

1. Используя метод наименьших квадратов, сгладить с помощью функций заданного вида следующие табличные зависимости:

а)

x 1,8   2,4 2,7 3,3
y          

 

б)

x 0,5        
y          

 

в)

x -2     1,2 1,5
y   0,3 0,2 0,2 0,2

 

2. При приёме на работу 14 кандидатам на вакантные должности было предложено два теста. Результаты тестирования (в баллах) приведены в таблице:

                           
                           

а) найти уравнение регрессии по ,

б) проверить значимость уравнения регрессии на 5%-ном уровне по - критерию,

в) оценить среднее значение показателя второго теста с показателем первого 60 баллов и построить для него 95%-ный интервал, аналогичный доверительный интервал найти для индивидуальных значений.


Поделиться с друзьями:

Автоматическое растормаживание колес: Тормозные устройства колес предназначены для уменьше­ния длины пробега и улучшения маневрирования ВС при...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.054 с.