Определение статистической зависимости и независимости по таблице сопряженности (модель «хи» квадрат»). — КиберПедия 

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Определение статистической зависимости и независимости по таблице сопряженности (модель «хи» квадрат»).

2017-11-22 179
Определение статистической зависимости и независимости по таблице сопряженности (модель «хи» квадрат»). 0.00 из 5.00 0 оценок
Заказать работу

 

Критерий хи-квадрат используют для проверки статистической значимости наблюдаемой связи в таблице сопряженности признаков.

При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (f0) в ячейках совпадают с ожидаемыми частотами (fe).

Обычно для вычисления критерия хи-квадрат используется формула Пирсона:

 

Здесь вычисляется сумма квадратов стандартизованных остатков по всем полям таблицы сопряженности. Поэтому поля с более высоким стандартизованным остатком вносят более весомый вклад в численное значение критерия хи-квадрат и, следовательно, — в значимый результат. Cтандартизованный остаток 2 или более указывает на значимое расхождение между наблюдаемой и ожидаемой частотами.

Корректность проведения теста хи-квадрат определяется двумя условиями: во-первых, ожидаемые частоты < 5 должны встречаться не более чем в 20 % полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

 

30. Измерение силы (тесноты) связи между признаками в таблицах сопряженности

 

В случае таблиц сопряженности для измерения силы связи предложены десятки формул, которые можно свести к трем основным группам:

  • традиционные коэффициенты связи, основанные на c 2;
  • меры и статистики, основанные на рангах.

Коэффициенты связи, основанные на c 2, исходят из предпосылки о том, что, чем больше объем выборки m, тем легче получить статистически значимую величину критерия даже при очень слабой взаимосвязи переменных (т.е. при больших объемах выборки даже слабые связи будут статистически значимыми).

Чтобы элиминировать влияние объема выборки m, К. Пирсон предложил в качестве меры связи среднеквадратическую сопряженность (он же – редуцированный коэффициент корреляции)

 

который изменяется в диапазоне от 0 до min(r – 1, s – 1).

Стремясь нормировать меру связи к единому диапазону, С. Крамер видоизменил формулу для своего коэффициента Крамера:

 

верхний предел которого единица.

А.А. Чупров нашел для похожей формулы более звучное название – полихорический коэффициент сопряженности (коэффициент Чупрова):

 

Наконец, можно упомянуть еще один коэффициент, связанный с именем К. Пирсона – коэффициент контингенции:

Перечисленные коэффициенты, основанные на c2, остаются неизменными при перестановке местами строк или столбцов таблицы и всегда выражаются положительными числами, поэтому уяснение направления зависимости должно производиться только по виду таблицы сопряженности.

Коэффициенты, основанные на рангах, позволяют извлечь информацию о направлении связи между признаками, используя понятие коррелируемости на основе подсчета числа пар объектов с взаимно возрастающими, взаимно убывающими и равными значениями признаков.

Коэффициент t Кендалла учитывает число пар с равными признаками и может достигать значений -1 и +1, отражающих высшую степень положительной или отрицательной корреляции между признаками. Обычно вычисляется два варианта статистики Кендалла: t b и t c, которые различаются только способом обработки совпадающих рангов.

Если в данных имеется много совпадающих значений, предпочтительнее g -статистика Гудмана-Кендалла, которая представляет собой нормированную разность между вероятностью P того, что ранговый порядок двух переменных совпадает, и вероятностью Q того, что он не совпадает:

g = (P - Q)/(P + Q).

Таким образом, g -статистика в основном эквивалентна t Кендалла, за исключением того, что совпадения явно учитываются в нормировке.

 

Понятие ранжирования

 

Ранжирование - это процесс преобразования простого статистического ряда на основе упорядочения (группирования) числовых значений элементов ряда по убыванию

,

или по возрастанию

,

где i это ранг элемента ранжированного ряда значений признака I [1, n].

В результате преобразования получим ранжированный ряд в виде убывающей или возрастающей по значению признака
числовой последовательности, в котором значение первого ранга элементов убывающего ряда равно числовому значению n–го ранга элементов возрастающего ряда. Табличное представление ранжированного ряда аналогично виду простого статистического ряда.

Процесс преобразования простого статистического ряда из n числовых значений в возрастающую (убывающую) числовую последовательность основан на применении алгоритмов "Определение наибольшего числового значения элементов ряда"; "Перестановка элементов ряда".

Алгоритм определения наибольшего числового значения первого ранга элементов ряда основан на последовательном выполнении операции сравнения двух значений за n шагов. На первом шаге примем значение первого элемента x1 за начальное наибольшее значение элементов ряда (xmax=x1). На каждом i-м шаге алгоритма сравнивается значение текущего (xi, где i=2,…,n) элемента ряда с наибольшим значением xmax. На втором шаге (i=2) значение второго элемента ряда (x2) будем сравнивать с наибольшим значением x2>xmax (x2 больше, чем xmax?). Если условие выполняется, то за xmax принимается большее значение элемента ряда (xmax=x2), а при невыполнении условия xmax сохранит свое предыдущее значение (xmax=x1). На последнем n-м шаге выполняется операция сравнения xn> xmax и определяется результат алгоритма наибольшее числовое значение первого ранга (x`1) из n-элементов ряда.

 


Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.009 с.