Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Особенности труда и отдыха в условиях низких температур: К работам при низких температурах на открытом воздухе и в не отапливаемых помещениях допускаются лица не моложе 18 лет, прошедшие...

Оценка эффективности инструментов коммуникационной политики: Внешние коммуникации - обмен информацией между организацией и её внешней средой...

Установка замедленного коксования: Чем выше температура и ниже давление, тем место разрыва углеродной цепи всё больше смещается к её концу и значительно возрастает...

Интересное:

Берегоукрепление оползневых склонов: На прибрежных склонах основной причиной развития оползневых процессов является подмыв водами рек естественных склонов...

Отражение на счетах бухгалтерского учета процесса приобретения: Процесс заготовления представляет систему экономических событий, включающих приобретение организацией у поставщиков сырья...

Влияние предпринимательской среды на эффективное функционирование предприятия: Предпринимательская среда – это совокупность внешних и внутренних факторов, оказывающих влияние на функционирование фирмы...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Определение статистической зависимости и независимости по таблице сопряженности (модель «хи» квадрат»).

2017-11-22

179

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 9 из 14Следующая ⇒

Критерий хи-квадрат используют для проверки статистической значимости наблюдаемой связи в таблице сопряженности признаков.

При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (f₀) в ячейках совпадают с ожидаемыми частотами (f_e).

Обычно для вычисления критерия хи-квадрат используется формула Пирсона:

Здесь вычисляется сумма квадратов стандартизованных остатков по всем полям таблицы сопряженности. Поэтому поля с более высоким стандартизованным остатком вносят более весомый вклад в численное значение критерия хи-квадрат и, следовательно, — в значимый результат. Cтандартизованный остаток 2 или более указывает на значимое расхождение между наблюдаемой и ожидаемой частотами.

Корректность проведения теста хи-квадрат определяется двумя условиями: во-первых, ожидаемые частоты < 5 должны встречаться не более чем в 20 % полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

30. Измерение силы (тесноты) связи между признаками в таблицах сопряженности

В случае таблиц сопряженности для измерения силы связи предложены десятки формул, которые можно свести к трем основным группам:

традиционные коэффициенты связи, основанные на c ²;
меры и статистики, основанные на рангах.

Коэффициенты связи, основанные на c ², исходят из предпосылки о том, что, чем больше объем выборки m, тем легче получить статистически значимую величину критерия даже при очень слабой взаимосвязи переменных (т.е. при больших объемах выборки даже слабые связи будут статистически значимыми).

Чтобы элиминировать влияние объема выборки m, К. Пирсон предложил в качестве меры связи среднеквадратическую сопряженность (он же – редуцированный коэффициент корреляции)

который изменяется в диапазоне от 0 до min(r – 1, s – 1).

Стремясь нормировать меру связи к единому диапазону, С. Крамер видоизменил формулу для своего коэффициента Крамера:

верхний предел которого единица.

А.А. Чупров нашел для похожей формулы более звучное название – полихорический коэффициент сопряженности (коэффициент Чупрова):

Наконец, можно упомянуть еще один коэффициент, связанный с именем К. Пирсона – коэффициент контингенции:

Перечисленные коэффициенты, основанные на c², остаются неизменными при перестановке местами строк или столбцов таблицы и всегда выражаются положительными числами, поэтому уяснение направления зависимости должно производиться только по виду таблицы сопряженности.

Коэффициенты, основанные на рангах, позволяют извлечь информацию о направлении связи между признаками, используя понятие коррелируемости на основе подсчета числа пар объектов с взаимно возрастающими, взаимно убывающими и равными значениями признаков.

Коэффициент t Кендалла учитывает число пар с равными признаками и может достигать значений -1 и +1, отражающих высшую степень положительной или отрицательной корреляции между признаками. Обычно вычисляется два варианта статистики Кендалла: t _b и t _c, которые различаются только способом обработки совпадающих рангов.

Если в данных имеется много совпадающих значений, предпочтительнее g -статистика Гудмана-Кендалла, которая представляет собой нормированную разность между вероятностью P того, что ранговый порядок двух переменных совпадает, и вероятностью Q того, что он не совпадает:

g = (P - Q)/(P + Q).

Таким образом, g -статистика в основном эквивалентна t Кендалла, за исключением того, что совпадения явно учитываются в нормировке.

Понятие ранжирования

Ранжирование - это процесс преобразования простого статистического ряда на основе упорядочения (группирования) числовых значений элементов ряда по убыванию

или по возрастанию

где i это ранг элемента ранжированного ряда значений признака I [1, n].

В результате преобразования получим ранжированный ряд в виде убывающей или возрастающей по значению признака
числовой последовательности, в котором значение первого ранга элементов убывающего ряда равно числовому значению n–го ранга элементов возрастающего ряда. Табличное представление ранжированного ряда аналогично виду простого статистического ряда.

Процесс преобразования простого статистического ряда из n числовых значений в возрастающую (убывающую) числовую последовательность основан на применении алгоритмов "Определение наибольшего числового значения элементов ряда"; "Перестановка элементов ряда".

Алгоритм определения наибольшего числового значения первого ранга элементов ряда основан на последовательном выполнении операции сравнения двух значений за n шагов. На первом шаге примем значение первого элемента x₁ за начальное наибольшее значение элементов ряда (x_max=x₁). На каждом i-м шаге алгоритма сравнивается значение текущего (x_i, где i=2,…,n) элемента ряда с наибольшим значением x_max. На втором шаге (i=2) значение второго элемента ряда (x₂) будем сравнивать с наибольшим значением x₂>x_max (x₂ больше, чем x_max?). Если условие выполняется, то за x_max принимается большее значение элемента ряда (x_max=x₂), а при невыполнении условия x_max сохранит свое предыдущее значение (x_max=x₁). На последнем n-м шаге выполняется операция сравнения x_n> x_max и определяется результат алгоритма наибольшее числовое значение первого ранга (x`₁) из n-элементов ряда.

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒

Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...