Проверка гипотез о распределениях — КиберПедия 

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Автоматическое растормаживание колес: Тормозные устройства колес предназначены для уменьше­ния длины пробега и улучшения маневрирования ВС при...

Проверка гипотез о распределениях

2022-11-14 32
Проверка гипотез о распределениях 0.00 из 5.00 0 оценок
Заказать работу

Одна из важнейших задач анализа вариационных рядов заключается в выявлении закономерности распределения и определении её характера. Для обоснования определённого типа теоретической кривой распределение выдвигается какая-нибудь научная гипотеза.

Графическое изображение ряда в виде изменения частот в вариационном ряду, функционально связанных с изменением значений признака, называется теоретической кривой распределения. Получение кривой распределения из эмпирических данных (полигон, гистограмма) возможно лишь для описания идеального случая. При этом теоретическое распределение играет роль некоторой идеализированной модели эмпирического распределения, а сам анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия между ними.

В статистике широко используются различные виды теоретических распределений: нормальное распределение, биномиальное распределение, распределение Пуассона и др. Каждое из теоретических распределений имеет специфику и свою область применения. Однако чаще всего в качестве теоретического распределения используется нормальное распределение, которое выражается формулой

где  – ордината кривой нормального распределения (вероятность),

   и е − математические постоянные (; )

    − варианты вариационного ряда (значение признака);

 − среднее значение признака;

         − среднее квадратическое отклонение.

Выразив стандартизованное отклонение  через , получим

.

Гипотеза о распределениях заключается в том, что выдвигается предположение о том, что распределение в генеральной совокупности подчиняется какому-то определённому закону. Проверка гипотезы состоит в том, чтобы на основе сравнения эмпирических частот (частостей) с теоретическими сделать вывод о соответствии фактического распределения гипотетическому распределению.

Для проверки гипотезы о соответствии эмпирического распределения закону нормального распределения необходимо по фактическим данным вычислить теоретические частоты кривой нормального распределения по формуле

где  – объём выборки;

    − величина интервала вариационного ряда.

Значение ординат кривой нормального распределения  можно получить по таблице (Приложение А).

Например. По материалам обследования качества нити получено 220 проб нити по крепости (таблица 2.2.1).

 

Таблица 2.2.1 − Распределение проб нити по крепости

 

Крепость нити, г 120 − 130 130 − 140 140 − 150 150 − 160 160 − 170 170 −180 180 −190 190 − 200 Итого
Число проб, 9 13 27 59 56 31 17 8 220

 

Можно ли с 5%-м уровнем значимости считать, что это распределение подчиняется нормальному.

Испытаем нулевую гипотезу, состоящую в том, что распределение подчиняется нормальному закону . Вычисляем теоретические частоты, соответствующие нормальному распределению (таблица. 2.2.2). Проверяемая гипотеза формулируется как , альтернативная .

1. Рассчитаем среднюю арифметическую взвешенную:

.

2. Определим дисперсию и среднеквадратическое отклонение:

3. Находим стандартизованное отклонение (таблица 2.2.2, гр.7)

4. На основе найденного стандартизованного отклонения определяем значение ординат кривой нормального распределения , которые определяют по таблицам значения функции (таблица 2.2.2, гр.8):

, (Приложение А).

5. По фактическим данным вычисляем теоретические частоты нормального распределения  (таблица 2.2.2, гр.9): 

Объективная характеристика соответствия эмпирических частот с теоретическими может быть получена на основе проверки нулевой гипотезы о характере распределения с помощью критерия согласия К. Пирсона, В.И. Романовского, А.Н. Колмогорова и Б.С. Ястремского.

Критерий согласия Пирсона (χ2-хи квадрат) вычисляется по формуле

где  – число категорий ряда распределения,

   − номер категории;

− частота фактического распределения;

  − частота теоретического распределения.

 равно нулю, если все фактические частоты равны соответствующим теоретическим частотам. Кроме того, величина  зависит от числа групп, на которые разбита совокупность. Чем больше групп выделяют в сово-купности, тем больше слагаемых входят в величину , а значит, тем больше отклонений эмпирических частот от теоретических.

Имеются специальные таблицы критических значений  при 5% и 1% уровнях значимости (Приложение Б). Табличные значения  зависят от числа степеней свободы (  – degrees of freedom) и уровня значимости (). Понятие числа степеней свободы означает следующее: если фактический ряд распределения имеет () категорий, то фактические частоты  должны быть связаны таким соотношением: .

Таким образом, если параметры теоретического распределения известны, то свободно варьировать могут только  частот, а последняя частота может быть определена с помощью вышеуказанного соотношения. Вместе с тем если  параметров теоретического распределения неизвестны при нахождении теоретических частот, то они определяются на основе данных эмпирического распределения. Это накладывает на эмпирические частоты ещё  связей, в результате чего теряется ещё  степеней свободы. Следовательно, число степеней свободы становится равным .

Порядок применения критерия согласия 2 сводится к следующему:

1. Вычисляется хи-квадрат фактическое ( 2 расч.): .

2. Определяем число степеней свободы:

3. Выбираем уровень значимости (α=0,05; α=0,01).

4. По таблицам значений 2 Пирсона (Приложение Б) находят табличное значение хи-квадрата ( 2табл.) при заданном уровне значимости  и данном числе степеней свободы .


Таблица 2.2.2  −  Расчётные данные

Середина интервала, Число проб,    
1 2 3 4 5 6 7 8 9
125 9 1 125 -35,5 1 260,25 11 342,25 -2,24 0,0325 5
135 13 1 755 -25,5 650,25 8 453,25 -1,61 0,1092 15
145 27 3 915 -15,5 240,25 6 486,75 -0,98 0,2468 34
155 59 9 145 -5,5 30,25 1 784,75 -0,35 0,3752 52
165 56 9 240 4,5 20,25 1 134,00 0,28 0,3836 53
175 31 5 425 14,5 210,25 6 517,75 0,91 0,2637 37
185 17 3 145 24,5 600,25 10 204,25 1,54 0,1219 17
195 8 1 560 34,5 1 190,25 9 522,00 2,17 0,0379 5
Итого 220 35 310 - - 55 445,00 - - 218

5. Сравниваем 2расч. с 2табл. При полном совпадении теоретического и эмпирического распределений . Если 2расч.> 2табл., то гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если 2расч. 2табл., заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и что расхождение между теоретическими и эмпирическими частотами случайно.

Отметим, что практическое использование критерия согласия Пирсона 2 связано с рядом ограничений, важнейшие из них:

1. Объём выборки  должен быть не менее 50 единиц.

2. Эмпирические и теоретические частоты всех интервалов должны насчитывать не менее 5 единиц. Если это условие не выполняется, то малонакопленные интервалы объединяются с соседними.

 3. В совокупностях малого объёма  должен определяться по частотам, а не по частостям.

4. Число интервалов (категорий) ряда распределения должно быть большим, так как оценка χ2 зависит от числа степеней свободы. При малом числе степеней свободы оценки получаются недостаточно надежными.  

Например, проверим согласованность эмпирических и теоретических частот с помощью критерия  на основе предыдущего примера (таблица 2.2.2). Расчёт χ2расч. представлен в таблице 2.2.3.

 

Таблица 2.2.3  −  Расчётные данные

 

        Частоты

 

 

эмпирические, теоретические,
1 2 3 4 5
9 13 27 59 56 31 17 8 5 15 34 52 53 37 17 5 4 -2 -7 7 3 -6 0 3 16 4 49 49 9 36 0 9 3,20 0,27 1,44 0,94 0,17 0,97 0 1,8  
220 218 - - 8,79

1. Находим разность между эмпирическими и теоретическими частотами (таблица 2.2.3, гр.3): =9-5=4; 13-15=-2; 27-34=-7 и т.д.

2. Возводим найденную разность в квадрат  (таблица 2.2.3, гр.4)

   3. Делим полученный результат на соответствующие теоретические частоты (таблица 2.2.3, гр.5):

4. Определим число степеней свободы. Гипотетическое нормальное распределение зависит от двух параметров (, т.е. число параметров Р=2), количество категорий (количество интервалов) S=8, следовательно, число степеней свободы 8−(2+1)=5.

Уровень значимости =0,05 (по условию примера).

5. По таблице значимости  (критерий Пирсона) (Приложение Б) находим 2табл. =11,07. Так как 2расч.=8,79< 2табл.=11,07, выдвинутая гипотеза  принимается и расхождения между эмпирическими и теоретическими частотами можно считать случайными.

Критерий Романовского (С) также используется для проверки близости эмпирического и теоретического распределения, определяется следующим образом:

где χ2 – критерий Пирсона;

 − число степеней свободы .

Этот показатель весьма удобен при отсутствии таблиц для χ2. Если С<3, то расхождение между теоретическим и эмпирическим распределением случайно, если же С>3, то не случайны и расхождение между теоретическим распределением не может служить моделью для изучаемого эмпирического распределения.

Проверим выдвинутую гипотезу, в нашем примере, с помощью критерия Романовского: χ2расч.=8,79 и =5;

.

Так как С<3, гипотеза не отвергается. Критерий Романовского также подтверждает, что расхождение между эмпирическими и теоретическими частотами несущественно.

Критерий Колмогорова λ основан на определении максимального расхождения между накопленными частотами или частостями эмпирических и теоретических распределений: ,

где  – максимальная разность между накопленными частотами

         эмпирического и теоретического рядов распределений;

 – максимальная разность между накопленными частостями   

        эмпирического и теоретического рядов распределений;

 – число единиц в совокупности.

Рассчитав значение λ, по таблице Р(λ) (Приложение В) определяют вероятность, с которой можно утверждать, что отклонение эмпирических частот от теоретических случайно. Вероятность Р(λ) может изменяться от 0 до 1. При Р(λ)=1 происходит полное совпадение частот, при Р(λ)=0 – полное расхождение. Если λ принимают значение до 0,3, то Р(λ)=1.

Основное условие для использования критерия Колмогорова достаточно большое число наблюдений.

Например, используя данные таблицы 2.2.3, проверить правильность выдвинутой гипотезы о распределении проб по крепости нити по закону нормального распределения (таблица 2.2.4) с помощью критерия Колмогорова.

 

Таблица 2.2.4 − Расчётные данные

Крепость нити, г

Частоты ряда распределения

Накопленные частоты

 

фактические, теоретические, фактические, теоретические,
1 2 3 4 5 6
120 − 130 130 − 140 140 − 150 150 − 160 160 − 170 9 13 27 59 56   5 15 34 52 53   9  22 49 108 164 5 20 54 106 159   4 2 5 max 2 5 max  

Продолжение таблицы 2.2.4

170 − 180 180 − 190  190 −200 31 17 8 37 17 5 195 212 220 196 213 218 1 1 2
Итого 220 218 - - -

 

1. Рассчитаем накопленные частоты  и  по фактическим и теоретическим частотам распределения (таблица 2.2.4, гр. 4 и5)

2. Находим разность между накопленными частотами:

3. Определим максимальную разность между накопленными частотами (таблица 2.2.4, гр.6). Она равна 5.

4. Вычисляем критерий Колмогорова

5. По таблице Приложения В находим значение вероятности при λ=0,34; Р(λ)=0,997.

Это означает, что с вероятностью, близкой к единице, можно утверждать, что гипотеза о нормальном распределении не отвергается, а расхождение эмпирического и теоретического распределений носят случайный характер.

Критерий Ястремского (L) может быть найден на основе следующего соотношения: ,

где χ2расч.  − критерий Пирсона;

S – число групп (категорий) в эмпирическом распределении;

Q – величина, зависящая от числа групп, но при числе групп

      меньше 30, не превосходящая 0,6.

Если L 3, то эмпирическое распределение следует избранному теоретическому закону распределения. При L>3 эмпирическое распределение не подчинено предполагаемому теоретическому закону.

Проверим, подчиняется ли распределение проб по крепости нити закону нормального распределения на основе критерия Ястремского (χ2расч.=8,79; S=8; Q=0,6):

L 3, следовательно, гипотеза Н0 не отвергается, а расхождения эмпирического и теоретического распределений носят случайный характер.

 

Задачи

8.1. В течение рабочей недели поводилось наблюдение за работой 50 станков и регистрировались неисправности, требовавшие остановки станков для их регулировки. Результаты наблюдений следующие:

Число неисправностей 0 1 2 3 4 5
Число станков 14 16 10 7 2 1

Требуется вычислить вероятности и теоретические частоты числа неисправностей, считая, что распределение последних подчиняется закону нормального распределения.

 

8.2. По цеху имеются следующие данные о распределении рабочих по стажу работы:

Группы рабочих по стажу работы (лет) 0 − 2 2 − 4 4 − 6 6 − 8 8 − 10 10 − 12 12 − 14 Итого
Число рабочих 6 8 12 24 17 8 5 80

На основе приведённых данных проверить соответствие эмпирического распределения закону нормального распределения, используя критерий согласия К. Пирсона (a = 0,01).

8.3. Результаты статистического обследования фирм, участвовавших в международной выставке, представлены в следующей таблице:

Расходы на рекламу в % к общим расходам фирмы 0,5 − 1,0 1,0 − 1,5 1,5 − 2,0 2,0 − 2,5 2,5 – 3,0 3,0 − 3,5 3,5 − 4,0 4,0 − 4,5
Количество фирм 46 123 525 228 35 28 12 3

1. Вычислим теоретические частоты, соответствующие нормальному распределению. 2. Испытаем нулевую гипотезу, состоящую в том, что распределение подчиняется нормальному закону на основе критерия χ2 с 5% уровнем значимости.

8.4. По данным задачи 8.3 испытайте нулевую гипотезу о том, что распределение подчиняется нормальному с помощью критериев           В. И. Романовского, А. Н. Колмогорова, Б.С. Ястремского.

8.5. Распределение 1 000 семей по уровню душевого дохода за месяц характеризуется следующими данными:

Группа семей по среднедушевому доходу в месяц, руб. Число семей Частота теоретического нормального распределения
до 5 000 5 000 − 6 000 6 000 − 7 000 7 000 − 8 000 8 000 − 9 000 9 000 − 10 000 10 000 − 11 000 11 000 − 12 000 12 000 − 13 000 13 000 и более 50 100 182 163 150 120 107 70 48 10 57  90 170 156 148 115 113 86 52 13
Итого   1 000                  1 000

На основе критерия χ2 проверьте, согласуется ли распределение семей по среднедушевому доходу с нормальным распределением с вероятностью 0,95.

8.6. По данным задачи 8.5 проверьте близость эмпирического и теоретического распределений с помощью В.И. Романовского,             А.Н. Колмогорова, Б.С. Ястремского.

Проверка гипотез о связях

Для установления и оценки уровня значимости связи применяются различные статистические критерии (тесты).В качестве критериев чаще используются χ2 Пирсона, t − статистика Стьюдента, F − критерий Фишера.

Классическим тестом, используемым в тех случаях, когда данные расклассифицированы в двумерной таблице, является хи-квадрат тест, как было показано в предыдущем параграфе, 2 – это сумма квадратов разностей между фактическими и теоретическими частотами, делёнными на теоретическую частоту с целью стандартизации: .

Как правило, χ2 – тест применяется для анализа двух переменных, не имеющих количественного выражения, однако с успехом может быть использован и при анализе взаимосвязи количественных переменных.

Традиционно распределение двух качественных признаков задается таблицей сопряжённости. Таблица сопряжённости (таблица частот, перекрестная классификация, корреляционная таблица, комбинированная таблица) представляет собой совместное распределение двух качественных признаков, то есть величин частот или частостей наблюдений, обладающих одновременно  – значением одного и  − значением другого признака. Таблица сопряжённости двух переменных размером . Обозначим: – наблюдаемая частота (число объектов) в ячейке (ij) таблицы; − теоретически ожидаемая (по ) частота в этой ячейке; ; ; – число строк;  – число столбцов. Таблица сопряжённости имеет вид (таблица 2.3.1).

 

Таблица 2.3.1 − Таблица сопряжённости

            Итого
nr2
. .   …   …   …   …   …
nr2 nrs nr0
Итого

 

В таблице сопряженности представлены так называемые маргинальные частоты, образующие крайний правый столбец, а также самую нижнюю строку, то есть итоги по каждому  – значению,  – значению соответственно.

 − сумма по -й строке (маргинальные частоты);

 − сумма по -му столбцу (маргинальные частоты);

− объём выборки.

Выдвинутая гипотеза формулируются как  или , а альтернативная гипотеза . Критерий  для проверки Н0 имеет вид

где  − теоретические частоты.

Число степеней свободы для таблицы сопряжённости равно . Табличное значение χ2расч. зависит от уровня значимости  и числа степеней свободы  (Приложение 2). Если χ2расч.  χ2табл., то гипотеза  при заданном уровне значимости отвергается. В противном случае, т.е. когда χ2расч.< χ2табл, гипотеза принимается.

Для конкретного применения методов, основанных на χ2, необходимо обеспечить выполнение следующих условий:

1) выборку необходимо получить из независимых наблюдений;

2) ни одна из ожидаемых частот не должна быть слишком мала (минимум 5). Если частоты оказываются меньше 5, то необходимо объединить соседние категории признака или обратиться к другому критерию;

3) не имеют смысла вычисления критерия χ2 в том случае, когда таблица сопряжённости содержит ячейки с нулевым значением наблюдаемых частот, т.к. интерпретация полученного показателя χ2 значительно усложняется.

Например. По данным опроса, 187 предпринимателей, работающих в кафе и ресторанах, относительно оценки возможностей деятельности при разных формах собственности получены следующие данные (таблица 2.3.2).

 

Таблица 2.3.2 − Исходные данные

 

Форма собственности                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    

Оценка возможностей деятельности

Итого

крайне неблаго-приятно Неблаго-приятно трудно сказать благо-при- ятно исключи-тельно бла-гоприятно
Один владелец 20 18 7 15 7 67
Товарищество 6 6 12 13 13 50
Товарищество с ограни-ченной ответственностью   12   17   10   25   6   70
Итого 38 41 29 53 26 187

 

Испытаем гипотезу о независимости переменных: Н0:nij .

1. Рассчитаем теоретические частоты:

 - для оценки условий деятельности одного владельца

- для оценки условий деятельности товариществ

(таблица 2.3.3).

 

Таблица 2.3.3 − Теоретические частоты

Форма собственности                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    

Оценка возможностей деятельности

Итого

крайне неблаго-приятно неблаго-приятно трудно сказать благо-приятно исклю-чительно благо-приятно
Один владелец 13,6 14,7 10,4 19,0 9,3 67
Товарищество 10,2 11,0 7,7 14,2 6,9 50
Товарищество с огра-ниченной ответствен-ностью     14,2     15,3     10,9     19,8     9,8     70
Итого 38 41 29 53 26 187

 

Таким было бы распределение ответов о возможностях деятельности, если бы формы собственности никак не сказывались. Задавая уровень значимости , находим по таблице значений χ2 – критерия Пирсона (Приложение Б).   

2. Определим χ2расч., показывающим различия между фактическими и теоретическими клеточными частотами:

Так как χ2расч.> χ2табл.,  отклоняется, то есть форма собственности небезразлична для деятельности кафе и ресторанов.

Задачи

9.1. По данным опроса 540 семейных групп (семья детей – семья родителей) требуется определить, имеет ли место зависимость образования детей от образования родителей с помощью критерия χ2 (a = 0,01).

Образование матери                 

Образование сына или дочери

высшее среднее специальное среднее общее и неполное среднее всего
высшее среднее специальное среднее общее неполное среднее 56 34    49 68  7 40 23 98   4   6  17 138 67 80 89 304
Всего  207,0  168,0 165,0 540

 

9.2. По одному из факультетов имеются следующие данные о распределении 600 студентов-заочников по двум признакам − характеру работы и результатом сдачи экзаменов по специальным предметам:

Характер работ Сдавшие сессию без неудовлетворительных оценок Получившие неудовлетворитель-ные оценки  Всего студентов  
Работающие по профилю факультета 270 50 320
Работающие не по профилю факультета 150 130 280
Всего студентов 420 180 600

Определить, случайно или неслучайно распределение в таблице, то есть сделать вывод о наличии или отсутствии зависимости успеваемости студентов-заочников от соответствия профиля работы с помощью критерия χ2 (a = 0,05).

9.3. Предположим, имеется следующее распределение 100 опытных участ


Поделиться с друзьями:

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.105 с.