Статистические закономерности в анализе социологической информации. — КиберПедия 

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Статистические закономерности в анализе социологической информации.

2017-11-16 139
Статистические закономерности в анализе социологической информации. 0.00 из 5.00 0 оценок
Заказать работу

Сложности использования математических методов в социологии.

Проблема соотношения выборки и генеральной совокупности

1) На практике нередко нарушаются условия вероятностного порождения данных.

2) Не всегда бывает ясно, какова изучаемая генеральная совокупность.

3) Для многих методов отсутствуют разработанные способы перенесения результатов их применения с выборки на генеральную совокупность.

4) Перенос результатов с выборки на генеральную совокупность может быть затруднен из-за осуществления "ремонта" выборки (например, ее перевзвешивания),

Отсутствие строгих обоснований возможности применения конкретных методов математической статистики. Эвристичность (НЕПРЕДСКАЗУЕМОСТЬ)многих алгоритмов анализа данных

3. Использование шкал низких типов. Проблемы с использованием в социологии традиционных математико-статистических методов возникают также в связи с тем, что интересующие социолога данные, как правилo, бывают получены по шкалам низких типов. К шкалам низкого типа обычно относят шкалы, позволяющие получать "числа", очень не похожие на те действительные числа, к которым мы привыкли, осваивая курс школьной математики. Эта непохожесть означает невозможность работать с этими числами по обычным правилам арифметики. К шкалам же высокого типа причисляют те, с помощью которых получаются числа, в достаточной мере похожие на действительные числа, т.е. такие, с которыми позволено делать почти все, что мы привыкли делать с числами. Шкалами низкого типа обычно считают шкалы, называемые в литературе номинальными и порядковыми, а шкалами высокого типа – интервальные и шкалы отношений (в теории измерений известны и другие шкалы как низкого, так и высокого типов). Шкалы низкого типа (и получаемые с их помощью данные) часто называют также качественными, а шкалы высокого типа (и соответствующие данные) – количественными, или числовыми.4.Необходимость соотнесения модели, "заложенной" в методе, с содержанием задачи. Приведем несколько примеров. Начнем, казалось бы, с самого простого – с расчета мер средней тенденции. В математике известно бесконечное количество таких мер. Предположим, что модельер должен определить, какая длина должна быть у очередной модели женских юбок, выпускаемых какой-то фабрикой, и для этой цели опрашивает женщин рассматриваемого региона, просит их указать "любимую" длину. Если мы в качестве длины, рекомендуемой фабрике, укажем медиану соответствующего распределения, то тем самым окажемся перед риском выпустить неходовой товар: половина женщин решит, что юбка для них слишком коротка, а половина – что чересчур длинна. Покупать продукцию фабрики никто не захочет. А вот если в качестве меры средней тенденции мы используем моду, то удовлетворим женщин, выразивших наиболее часто встречающееся мнение

 

Модули программы SPSS

 

Основу программы составляет базисный модуль, предоставляющий разнообразные возможности регистрации и изменения информации. Он содержит методы анализа, которые применяются чаще всего. Этот модуль входит в базовую поставку и включает все процедуры ввода, отбора и корректировки данных. Наряду с простыми методиками статистического анализа данных – частотный анализ, расчет статистических характеристик, таблицы сопряженности, корреляции, построение графиков – этот модуль включает непараметрические тесты (непараметрические тесты не учитывают параметры распределения, т.е. средние значения и дисперсию), а также усложненные методы анализа данных: многомерный линейный регрессионный анализ, дискриминационный анализ, факторный анализ, кластерный, дисперсионный.

Традиционно вместе с базисным модулем поставляются еще два модуля: Advanced Models (усложненные модели) и Regression Models (регрессионные модели). Эти три модуля охватывают тот спектр методов анализа данных, который входил в раннюю версию программы для больших ЭВМ.

Regression Models (регрессионные модели). Данный модуль включает в себя различные методы регрессионного анализа, такие как бинарная и многозначная логистическая регрессия, нелинейная регрессия и пробит-анализ.

Advanced Models (усложненные модели). В этот модуль входят различные методы дисперсионного анализа (многомерный, с учетом повторных измерений), необходимые после применения общих линейных моделей, включая метод Каплана-Майера и регрессию Кокса, а также логлинейные модели.

Наряду с упомянутыми модулями существует еще ряд специальных дополнительных модулей и самостоятельных программ, число которых постоянно увеличивается.

Мы отметим существующие на сегодняшний день модули и программы, расширяющие возможности SPSS.

Tables. Модуль служит для создания презентационных таблиц. Здесь предоставляются более широкие возможности по сравнению с упрощенными частотными таблицами и таблицами сопряженности, которые строятся в базисном модуле.

Amos. (Analysis of moment structures – анализ моментных структур.) Включает методы анализа с помощью линейных структурных уравнений. Целью программы является проверка сложных теоретических связей между различными признаками случайного процесса и их описание при помощи подходящих коэффициентов. Проверка проводится в форме причинного анализа и анализа траектории. При этом пользователь в графическом виде должен задать теоретическую модель, в которую вместе с данными непосредственных наблюдений могут быть включены и так называемые скрытые элементы. Программа Amos включена в состав модулей расширения SPSS как приемник LISREL (Linear Structural RELationships – линейные структурные взаимоотношения).

Answer Tree (дерево решений). Включает 4 различных метода деления популяции на отдельные семейства (сегменты) с помощью заранее заданных категориальных переменных. Деление проводится таким образом, что зависимая переменная в различных сегментах принимает значимо различающиеся значения. Типичным примером применения данного метода является создание характерных профилей покупателей при исследовании потребительского рынка.

Categories. Модуль содержит различные методы для анализа категориальных данных, а именно: метод анализа соответствия и три метода оптимального масштабирования (анализ однородности, нелинейный анализ главных компонентов, нелинейный канонический анализ корреляции).

Clementine. Это программа для моделирования процесса распространения информации, в которой пользователю предлагаются многочисленные подходы к построению моделей (нейронные сети, виды регрессионного анализа).

Conjoin (анализ совместимости). Применяется при исследовании рынка для изучения потребительских свойств продуктов на предмет их привлекательности. При этом опрашиваемые респонденты должны по своему усмотрению расположить предлагаемые наборы потребительских свойств продуктов в порядке предпочтения. На основании этого выводятся так называемые частичные показатели полезности отдельных категорий каждого потребительского свойства.

Data Entry (ввод данных). Программа предназначена для быстрого составления вопросников и ввода данных. Этот модуль генерирует анкеты и шаблоны для ввода данных с монитора, в которых выбранные ранее вопросы и категории ответов опросника потом используются в качестве меток переменных и значений.

Точные тесты. Этот модуль служит для точного вычисления вероятности ошибки (величины р) в условиях ограниченности данных при проверке по критерию χ-квадрат, а также при непараметрических тестах.

GOLD MineR. Программа содержит специальную регрессионную модель для регрессионного анализа упорядоченных зависимых и независимых переменных.

Sample Power. При помощи данной программы может быть определен оптимальный размер выборки для большинства статистических анализов, используемых в SPSS.

SPSS Missing Value Analysis. Данный модуль служит для анализа и восстановления закономерностей, которым подчиняются отсутствующие значения. Он предоставляет различные варианты замены недостающих значений.

Таким образом, можно сказать, что программно- аналитический комплекс SPSS является на сегодняшний день наиболее универсальным инструментом для осуществления статистической обработки разнообразных социологических данных с учетом их специфики.

 

7. Подготовка и создание базы данных в SPSS: подготовка социологических данных к обработке (в т.ч. дихотомический и категориальный способы кодировки).

Для того чтобы полученные данные можно было обработать, прежде всего следует создать так называемую кодировочную таблицу. Эта таблица устанавливает соответствие между отдельными вопросами анкеты и переменными, используемыми при компьютерной обработке данных.

Для создания таблицы необходимо иметь анкету или иной инструментарий, в котором отражены вопросы и варианты ответов на данные вопросы, поэтому подобную кодировочную таблицу можно создавать как в течение полевого этапа исследования, так и после его завершения. Например, вопросу анкеты «Ваш пол» может соответствовать переменная «пол». Таким образом, на подготовительном этапе, прежде чем перейти к вводу данных, необходимо определить переменные, соответствующие измеряемым в исследовании признакам. Признак – это некоторое общее для всех объектов (респондентов) качество, конкретные проявления которого, (значения признака) могут меняться от объекта к объекту. Значения признака называют также альтернативами, градациями. Пример. В качестве значений признака «возраст» респондентов могут выступать значения 21, 46, 89 лет. Признак «отношение к работе транспорта» может иметь следующие градации: положительное, отрицательное, нейтральное и т.д.

Переменные – это ячейки памяти, в которые можно записывать значения, введенные с клавиатуры. Пример.

Все значения переменных в дальнейшем будут заноситься в матрицу данных. Она представляет собой таблицу, состоящую из определенного числа строк и столбцов. При этом каждая строка соответствует одной анкете (респонденту), а столбец – одной переменной.

Создание базы данных начинается с запуска программы SPSS. В результате откроется редактор данных SPSS (см. рис. 2.3). Здесь можно вводить новые данные или загружать существующие файлы данных при помощи команд File (файл) → Open.

Первым шагом является определение переменных. Для этого надо в редакторе данных дважды щелкнуть на ячейке с надписью «var» или на ярлычке –закладке в нижнем левом углу таблицы «Variable view» (просмотр переменных). Чтобы задать имя переменной, надо в текстовом поле «Name» ввести выбранное имя переменной. При этом каждая переменная имеет свое имя. Оно может представлять собой отражение номеров вопросов в анкете. Например, имена «var1» или «в25» будут соответствовать 1 и 25 вопросу анкеты. При выборе имени переменной следует соблюдать определенные правила:После ввода с клавиатуры в ячейку имя переменной нажмите клавишу <Tab>, чтобы подтвердить ввод и перейти к установке типа переменной.

Как видно из электронной таблицы, вновь созданные в SPSS переменные по умолчанию являются численными с максимальной длиной 8 знаков и дробной частью из 2 знаков (формат 8.2).

Если требуется изменить тип переменной, то щелкните в данной ячейке на кнопку с тремя точками.1. Numeric (числовые) – любые цифры, перед которыми стоит знак «+», «–» и десятичный разделитель.2. Comma (запятая) – к допустимым значениям относятся цифры, перед которыми стоит знак «+» или «–», точка как десятичный разделитель и одна или несколько запятых в качестве разделителей групп разрядов.3. Dot (точка) – к допустимым значениям относятся цифры, перед которыми стоит знак «+» или «–», и только точка как десятичный разделитель.4. Scientific notation (экспоненциальное представление) – при вводе данных разрешаются все допустимые численные значения, включая экспоненциальное представление, о котором говорит содержащаяся в числе буква Е или D.5. Date – дата или время.6. Dollar (знак доллара, точка как разделитель десятичный и запятая).7. Special currency (специальная валюта). Можно задавать собственные форматы валют.8. String (строка символов, текстовые переменные). В большинстве процедур их применение ограничивается или не допускается. С ними нельзя проводить никаких вычислительных операций, но можно проводить простой подсчет повторяемости. Десятичные разряды (Decimal). Увеличение или уменьшение этого значения также производится при помощи кнопки лифта. Например, переменная «пол» может принимать два значения, которые будут закодированы цифрами 1 и 2. Для нее можно задать. Метка переменной (Label)

Это название позволяет описать переменную более подробно. Метка переменной может содержать до 256 символов. Метки значений (Values) Эти названия позволят более подробно описать возможные значения переменной.

♦ Чтобы задать отсутствующие значения, надо нажать на кнопку с тремя точками в поле Пропуски (Missing). Откроется диалоговое окно «Define Missing Values» (определение отсутствующих значений)

♦ По умолчанию в программе предлагается вариант «No missing values» (нет отсутствующих значений), т.е. все значениясейчас рассматриваются как допустимые.

♦ Щелкнув левой клавишей мыши на пункте «Discrete missing values» (отдельные отсутствующие значения), для однойпеременной можно задать до трех пользовательскихотсутствующих значений. В рассматриваемом нами примере этобудут значения: 3, 4, 5.

♦ Щелкнуть левой клавишей мыши на пункте «Range and one optional discrete missing value» (диапазон отсутствующих значений).

В полях Columns (Столбцы) и Alignment (Выравнивание) примите настройки, предлагаемые программой SPSS по умолч. Шкала измерения Scale – метрическая,номинальная, порядковая.Подобным образом описываются все переменные, соответствующие всем вопросам анкеты. При создании матрицы данных надо помнить, что для кодировки однозначных и многозначных вопросов применяются разные методы. Создание переменных для многозначных вопросов и их кодировка.Дихотомический способ применяется в том случае, когда не известно или не ограничено возможное число вариантов ответа. Тогда для каждого варианта ответа (в нашем случае для проблемы) будет создаваться своя переменная. Кодировка каждой из таких переменных будет осуществляться по дихотомическому принципу (например, 1 = выбран ответ, 0 = не выбран ответ). При этом цифры, которые будут использованы Категориальный метод кодировки более удобен в ситуации неопределенного количества вариантов ответов на вопрос. Например, если респонденты перечисляют политиков, которым больше всего симпатизируют, или свои ассоциации в связи с чем-либо. При этом мы не можем заранее знать весь спектр ответов на вопрос. Но можем ограничить число ответов, которые должен дать респондент. Например, респонденту предлагается назвать не более трех известных магазинов бытовой техники, авторитетных лиц или интересующих передач. В таком случае мы создаем три переменные (в соответствии с ограничением возможного числа ответов одного респондента). Каждая из этих переменных будет содержать коды всех возможных (или указанных) вариантов ответа на данный вопрос.

Корректировка базы данных.

На этапе создания переменных, предшествующем вводу данных, невозможно при отсутствии определенного опыта работы просчитать все ситуации и создать «идеальную» матрицу для ввода данных.

Дополнение новых переменных. это можно сделать в любой момент на этапевведения и обработки данных, причем создавать переменную можно, находясь в любом диалоговом окне «Редактор данных: просмотр данных» или «Редактор данных: просмотр переменных».

Для создания новой переменной следует определить ее месторасположение, выделив переменную, перед которой надо вставить новую, а затем воспользоваться командой «Insert Variable» («Вставить переменную / наблюдение»). После создания новой переменной необходимо ее описать (все характеристики) в диалоговом окне «Редактор данных: просмотр переменных».

Кроме того, лишние переменные всегда можно удалить. Для этого их необходимо выделить, а затем воспользоваться клавишей Del.

Просмотр перечня всех переменных. В процессе ввода данных всегда можно посмотреть полный список переменных со всеми кодами их значений.Для этого не обязательно переходить в дополнительное окно редактора данных «просмотр переменных». В главном меню диалогового окна «Редактор данных: просмотр данных» можновоспользоваться функциями Utilites→Variables (Утилиты /Дополнительные возможности / Сервис → Переменные). В результате откроется окно, в котором приводится весьперечень переменных.

Для этого можно воспользоваться функцией главного меню View (Вид.

Поиск ошибок ввода.

При обработке результатов в базу данных вместо 18 лет было ошибочно введено 81. В первую очередь изменится значение среднего возраста. Для количественных переменных визуально по массиву определить наличие опечаток достаточно сложно, поэтому надо быть особо внимательными при вводе. Поэтому при заполнении базы данных необходимо нумеровать обработанные анкеты для возможности их последующего соотнесения.

Для нахождения опечаток надо в диалоговом окне «Редактор данных: просмотр данных» выделить переменную, их содержащую. Для этого щелкните левой клавишей мыши на имени переменной (для нашего примера var 4), выделится весь столбец. После чего надо воспользоваться командами главного меню редактора данных Edit /Правка → Find / Найти

В результате откроется новое диалоговое окно «Find Dada in Variable VAR 4» «Найти и заменить – Данные: Столбец_ VAR 4» в котором надо написать искомоезначение (для нашего примера это 51) и нажать на клавишу Find Next / Найти далее. И вы автоматически попадете в ячейку электронной таблицы, содержащую искомое значение.

Если надо найти несколько аналогичных значений, то повторное нажатие на клавишу «Find Next» / Найти далее переносит вас в следующую ячейку, содержащую данное значение. Если указанных для поиска значений в последующих случаях не найдено, то откроется следующее окно. Аналогичным образом можно найти любую ячейку базы данных, содержащую определенное, заданное с клавиатуры значение.

Шкалирование и виды шкал.

Номинальная (категориальная / номинативная) переменная. Переменная, каждое значение которой указывает на принадлежность объекта к определенной группе (категории). Номинативная шкала - шкала, классифицирующая по названию (лат. nomen - имя, название), разделяет все объекты на непересекающиеся группы, и не позволяет сравнивать объекты по уровню выраженности этого признака. В её основе лежит процедура, обычно не ассоциируемая с измерением. Пользуясь определённым правилом, объекты группируются по различным классам так, чтобы внутри класса они были идентичны по измеряемому свойству. Затем каждому объекту присваивается соответствующее обозначение. Простейший случай номинативной шкалы - шкала, состоящая всего лишь из двух ячеек, например: «имеет братьев и сестер - единственный ребенок в семье»; «иностранец – соотечественник»; проголосовал «за» - проголосовал «против»; пол, семейное положение, профессия и др.). и т.п.

В принципе номинативная шкала может состоять из ячеек «признак проявился - признак не проявился». Сложный вариант номинативной шкалы «старший - средний - младший - единственный ребенок в семье»; «выбор кандидатуры А - кандидатуры Б - кандидатуры В - кандидатуры Г».

Ранговая (порядковая) переменная. Количественная переменная, отражающая измеренное качество на уровне порядка: в большей или меньшей степени оно выражено. Измерение в этой шкале предполагает приписывание объектам чисел в зависимости от степени выраженности измеряемого свойства. В порядковой шкале ячейки образуют последовательность от ячейки «самое малое значение» к ячейке «самое большое значение» (или наоборот). Ячейки теперь уместнее называть классами, поскольку по отношению к классам употребимы определения «низкий», «средний» и «высокий» класс (ранг), или 1-й, 2-й, 3-й класс, и т.д. В порядковой шкале должно быть не менее трех классов, например «положительная реакция - нейтральная реакция - отрицательная реакция» или «подходит для занятия вакантной должности - подходит с оговорками - не подходит» и т. п. От классов легко перейти к числам, если мы условимся считать, что низший класс получает ранг 1, средний класс - ранг 2, а высший класс - ранг 3, или наоборот. Чем больше классов в шкале, тем больше у нас возможностей для математической обработки полученных данных и проверки статистических гипотез.

Интервальная шкала (метрическая) - это шкала, классифицирующая по принципу «больше на определенное количество единиц - меньше на определенное количество единиц». Каждое из возможных значений признака отстоит от другого на равном расстоянии. Шкала интервалов определяет величину различий между объектами в проявлении свойства. Она дополняет идею ранжирования принципом равных интервалов между ранжируемыми явлениями. Позволяет судить больше или меньше выражен признак и насколько. Интервальная шкала применяется в прикладной социологии

для измерения весьма небольшого числа свойств, значения которых можно выразить числом: возраст, стаж работы, число членов семьи, доход и др.

Шкала равных отношений –раз в неделю, 2 раза, раз в месяц, отнощение происходит субъектов 2:4, 5:10

Меры разброса.

Основными показателями, характеризующими вариацию, являются размах, дисперсия, среднее квадратическое отклонение и коэффициент вариации. R=Xmax-Xmin=22,83-22,40=0,43 руб. Недостатком данного показателя является то, что он оценивает только границы варьирования признака и не отражает его колеблемость внутри этих границ.

 

Дисперсия – это мера вариации значений признака в среднем и вокруг средней арифметической. Фактически это сумма квадратов остатков, деленная на число наблюдений.

Для того чтобы вычислить значение дисперсии, надо вычесть из каждого наблюдаемого значения среднее, возвести в квадрат все полученные отклонения, сложить квадраты отклонений и разделить полученную сумму на n:

где хкаждое наблюдаемое значение признака;

х (с черточкой сверху) – среднее арифметическое значение признака (переменной х);

n – количество наблюдений.

Чтобы сделать соответствующую точечную оценку дисперсии несмещенной, величина объема выборки в знаменателе уменьшается на 1.

где хi – каждое наблюдаемое значение признака;

х (с черточкой сверху) – среднее арифметическое значение признака (переменной х);

N – количество наблюдений.

В зависимости от того, насколько велика (мала) дисперсия, или среднеквадратическое отклонение, мы можем судить, насколько единодушны были в своих оценках респонденты (при меньшем значении дисперсии), или насколько сильно они расходятся в своих мнениях (при большем значении дисперсии).

Недостатком дисперсии является то, что это величина безразмерная. Мы можем понять размер доходов и единицы измерения остатков, но в данном случае дисперсия равна 4 000 000. Вряд ли можно сказать большая это величина или маленькая. Кроме того, данное значение не позволяет определить качество модели среднего, поскольку в формуле расчета дисперсии остатки берутся в квадрате.

Для того чтобы преодолеть эти трудности, существуют два производных от дисперсии показателя –

стандартное (среднеквадратичное) отклонение и

стандартная ошибка среднего .

Стандартное отклонение – это корень квадратный из дисперсии:

 

 

где хi – каждое наблюдаемое значение признака;

х (с черточкой сверху) – среднее арифметическое значение признака (переменной х);

n – количество наблюдений.

ДЛЯ ВЫЧИСЛЕНИЯ СТАНДАРТНОЙ ОШИБКИ СРЕДНЕГО НАМ НУЖНО РАЗДЕЛИТЬ СР.КВАДР.ОТКЛОНЕНИЕ НА КОРЕНЬ ИЗ РАЗМЕРА ГЕН.СОВОКУПНОСТИ

Стандартизация показателей.

Одной из задач, возникающих при одномерном анализе данных, является задача сопоставления значения определенной переменной для конкретного респондента со средним значением этой переменной в какой-то социальной группе.

Например, мы знаем, что респондент имеет заработную плату в размере 2 500 руб. Не зная средней величины зарплаты в регионе, где проживает респондент, мы не сможет сказать много или мало он получает. Величина 2 500 может быть проинтерпретирована лишь в сравнении с доходами других людей.

Для того чтобы можно было сразу оценить относительную величину того или иного количественного показателя для конкретного респондента, используется подход стандартизации исходных данных.

Существует несколько различных подходов к стандартизации данных, но наиболее распространенным является так называемая Z-статистика. Вычисление стандартизированной величины Zxy для значения переменной х проводится по

формуле

Zxi = (xi – x)/S,

где Xi – значение переменной х для определенного респондента;

X – среднее значение переменной х;

S – стандартное отклонение для переменной х.

Значение показателя Z значительно более информативно с точки зрения задачи относительного положения данного респондента, чем значение исходной переменной х. Если для респондента значение Z положительно, то он имеет значение переменной х больше, чем средний опрошенный респондент.

После того, как будет известно большее или меньшее значение переменной х имеет данный респондент по сравнению с другими опрошенными, необходимо узнать, насколько это значение больше или меньше, чем у других респондентов.

В знаменателе формулы для расчета Z стоит дисперсия переменной х, следовательно, 68 % Zx должно лежать в интервале от -1 до +1, а 95 % – в интервале от -2 до +2.

Таким образом, если по модулю значение Zx меньше 1, то значение переменной х для данного респондента вполне типично.

Если значение Zx по модулю находится в интервале от 1 до 2, то можно говорить, что данный респондент по рассматриваемому показателю значительно отличается от среднего респондента.

И наконец, если Zx по модулю превосходит 2, то можно утверждать, что респондент резко отличается от среднего.

Стандартизированная по формуле величина имеет среднее значение, равное 0, и дисперсию, равную 1.

Чтобы провести стандартизацию показателей при помощи SPSS, следует использовать блок команд:

Аnalyze / Анализ →

Descriptive statistics / Описательные статистики →

Descriptive / Описательные.

В результате откроется окно. Там будет операция «сохранять стандартиз.значения переменных»

После вычислений автоматически создается новая переменная, содержащая в себе стандартизированные значения, и размещается она последней в матрице данных

Новая переменная zvar21 представляет собой Z-стандартизированное значение переменной var00021. Использование стандартизированной переменной позволяет сказать, что доход респондента номер 21 приблизительно равен среднему значению по массиву опрошенных. В то время как доход у респондента под номером 32 значительно выше, нежели у среднего респондента.

Использование стандартизированных переменных может быть полезно при сопоставлении показателей, измеренных в различных единицах. Так, например, мы располагаем результатами исследований, проведенных в России и США. У российского респондента А средний доход составляет 9 000 руб. в месяц, у американского респондента В доход равен 2 000 дол. в месяц. Не зная значений средних доходов россиян и американцев, мы не можем их сопоставить и определить, кто из респондентов (А или В) находится выше в своем социальном кругу с точки зрения доходов. Но мы можем ответить на данный вопрос, если сопоставим не исходные объективные данные, а стандартизированные показатели.

 

Таблицы сопряженности.

. Наиболее часто перед социологами ставятся такие задачи, как описание и анализ совместного поведения двух и более переменных. При этом социолог формирует различные модели, например «респонденты, принадлежащие к разным возрастным, профессиональным или доходным группам, различаются по степени удовлетворенностью своей жизнью илиполитическим предпочтениям». Тем самым, допускается, что существуетнекоторая переменная (например, принадлежность копределенной социальной группе), которая объясняет поведениедругих переменных. Таким образом, в этой модели есть ипричина и следствие.

В традиционной терминологии объясняющие переменные называются независимыми, а объясняемые переменные – зависимыми. При описании совместного поведения несколькихпеременных социолог прибегает к использованиюмногомерного анализа.Наиболее частым инструментом проверки гипотез овзаимосвязи двух переменных являются таблицысопряженности.

Таблица сопряженности – это таблица, содержащая частоты совместного проявления значений двух признаков (например, X и Y), измеренных в данной совокупности единиц анализа. В ней строки соответствуют значениям одного признака, столбцы – другого. Иными словами, в таблицах сопряженности отражаются выборочные оценки вероятностных распределений многомерных случайных величин. На основе этой таблицы можно судить о сопряженности (взаимной встречаемости) каких-то значений одних признаков с некоторыми значениями других.

Каждая таблица сопряженности представляет собой численность групп респондентов, на которые подразделяется вся совокупность (т.е. матрицу абсолютных чисел). Кроме того, в таблице располагаются относительные частоты, т.е. доли, которые составляют группы из числа единиц анализа. Они приводятся в виде процентов. Наряду с этими частотами приводятся суммарные частоты по отдельным значениям признаков, а также вспомогательная информация, например по каждому вопросу число респондентов, не ответивших на этот вопрос.

Признаки в таблицах сопряженности – это вопросы анкеты, а

значения признаков – варианты ответов на эти вопросы.

Крайний правый столбец образуют строковые маргинальные суммы (маргиналы по строкам). Последняя строка содержит столбцовые маргинальные суммы.

 

Анализ →Описательная статистика →Таблицы сопряженности. где необходимо задать переменные, соответствующие нашим вопросам.Для этого из левой части окна, где содержится список всех переменных, при помощи клавиши (изображение стрелок) переносим в правую часть окна переменные «насколько безопасно чувствуете себя в городе» и «пол». При этом надо выбрать, каким образом переменные должны быть отражены в таблице сопряженности и соответственно заполнить окна «Row / Строки» и «Column / Столбцы». Ячейки Проценты.

Таким образом, мы видим, что главное назначение таблиц сопряженности – это удобное и наглядное представление исходной информации о переменных в целях выявления связей между ними.

 

Симметричные меры

Коэффициент сопряженности признаков Пирсона обозначается в статистике Р (по первой букве фамилии автора),в SPSS он обозначается СС и означает «Con

 

tingency Coefficient» (коэффициент контенгенции). Он вычисляется по следующейформуле:

СС = Р = ч2. ч2 + N  
 

где Х2 (ч2)– критерий Х2 Пирсона; N – общая сумма частот в таблице сопряженности.

Сильная связь.

Однако следует помнить, что на основе перечисленных выше симметричных коэффициентов нельзя говорить о направленности связи.

 

 

Направленные меры

Направленные меры, предназначение для отражения связанности номинальных признаков, определяются на основе так называемой концепции пропорционального сокращения ошибки. При определении этих коэффициентов одна переменная рассматривается как зависимая, поэтому они называются направленными мерами.

Лямбда Л. Гутмана (λ)

Коэффициент основан на модальном прогнозе. У него нет ограничений относительно размера ожидаемых частот, как у критерия Х2 Пирсона.

Этот коэффициент не может быть отрицательным и не может быть больше 1.

0 <λ< 1.

Коэффициент λ показывает вероятность, насколько улучшится предсказание одной переменной в ситуации знания значений другой переменной. Например, мы получили значение коэффициента λ, равное 0,1. Интерпретировать его следует так: значение одной переменной позволяет нам на 10 % лучше предсказать значения другой переменной.

Этот коэффициент имеет 3 значения: λа, λв, λсимм.

λа отражает предсказание строк по столбцам (столбцы – причина);

λв предсказание столбцов по строкам (переменная, отраженная в столбцах таблицы сопряженности, является зависимой); именно здесь и проявляется направленность связи;

λсимм среднее арифметическое; вычисляется, если зависимость строк от столбцов (и наоборот) не очевидна и ни одну из выбранных переменных нельзя считать зависимой.

В SPSS компьютер не знает, какую переменную считать зависимой, поэтому рассчитывает все значения λ (поочередно рассматривая переменные как зависимые).

У данного коэффициента λ есть существенный недостаток. Если для всех респондентов, например мужчин и женщин вотдельности, все модальные значения будут совпадать, то λ = 0, даже если зависимость между признаками будет существовать.

Следовательно, если λ а/в= 0, это не означает отсутствие связи, λ = 0 не говорит о статистической независимости признаков, а означает, что модальные значения частот по строкам лежат в одном столбце, или наоборот, т.е. предсказания одной переменной не меняются, если мы знаем другую. Существует иной коэффициент, не имеющий этого недостатка.

Тау Гудмена – Краскала (τ) или коэффициент Валлиса

Его расчет производится с учетом значений всех частот таблицы, а не только модальных. Этот коэффициент существует также в 3 экземплярах: τа, τв, τсимм. Он также отражает улучшение вероятности предсказаний по всей совокупности градаций:

0 < τ < 1.

В программе SPSS τ вычисляется одновременно с λ и интерпретируется аналогичным образом. Значения данного критерия являются более точными, поскольку рассчитываются с учетом всех частот.

Итак, в результате вычислений мы получаем несколько значений коэффициентов λ и τ. Кроме того, надо помнить, что эти коэффициенты имеют значимость, которую необходимо учитывать при их интерпретации. Таким образом, λ и τ показывают не зависимость признаков (ее наличие или отсутствие), а возможность на основе одних переменных предсказывать другие, причем оба коэффициента не имеют больших значений.

 

Гамма<


Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.112 с.