Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Марксистская теория происхождения государства: По мнению Маркса и Энгельса, в основе развития общества, происходящих в нем изменений лежит...

Техника безопасности при работе на пароконвектомате: К обслуживанию пароконвектомата допускаются лица, прошедшие технический минимум по эксплуатации оборудования...

Методика измерений сопротивления растеканию тока анодного заземления: Анодный заземлитель (анод) – проводник, погруженный в электролитическую среду (грунт, раствор электролита) и подключенный к положительному...

Интересное:

Искусственное повышение поверхности территории: Варианты искусственного повышения поверхности территории необходимо выбирать на основе анализа следующих характеристик защищаемой территории...

Берегоукрепление оползневых склонов: На прибрежных склонах основной причиной развития оползневых процессов является подмыв водами рек естественных склонов...

Распространение рака на другие отдаленные от желудка органы: Характерных симптомов рака желудка не существует. Выраженные симптомы появляются, когда опухоль...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Вероятностные и невероятностные выборки

2020-12-06

239

0.00 из 5.00 0 оценок

Заказать работу

Определение стратифицированной выборки

Совокупность, из которой формируется выборка, обычно имеет свою структуру. В соответствии с этой структурой можно разделить совокупность на части по определенному признаку – территориальному, административному, производственному, социальному и т.п. Например, Россия имеет деление на экономико-географические районы, на федеральные округа, на субъекты Федерации (области, края, республики). При проектировании выборки бывает важно, чтобы все части, из которых состоит совокупность, были представлены в выборке в нужных пропорциях.

Простая случайная выборка не может гарантировать отбор заданного числа людей из каждой части совокупности. Она хотя и дает в среднем пропорциональное представительство в выборке людей разных групп, однако эти пропорции подвержены случайным колебаниям. Иногда они могут заметно нарушаться. Для обеспечения в выборке нужного соотношения между разными частями совокупности используется стратифицированная выборка.

Стратифицированная выборка строится следующим образом:

а) сначала вся совокупность делится на непересекающиеся части, называемые стратами;

б) затем отдельно для каждой части (страты) формируется своя выборка.

Размер выборки в каждой страте может задаваться независимо от размера выборки в других стратах, принципы распределения выборки по стратам определяются целями исследования. Процедура отбора элементов в стратах может быть одинаковая для всех страт, а может быть в каждой страте своя.

В стратифицированной выборке каждая часть совокупности, которая выделена в отдельную страту, будет представлена заданным числом элементов. Исследователь заранее решает, сколько элементов должно быть отобрано в каждой страте.

Систематический отбор

Систематический отбор – это способ отбора элементов совокупности, который часто используется вместо простого случайного отбора. Его идея состоит в отборе каждого k-го элемента совокупности, начиная с некоторого элемента, который выбирается случайно.

Систематический отбор проводить легко, особенно в полевых условиях. Он задается всего двумя параметрами – стартовой точкой и шагом отбора. Его не только легко проводить, но и легко контролировать. Примером использования систематического отбора служит широко распространенный маршрутный метод отбора домохозяйств.

В некоторых случаях правила проведения систематического отбора могут быть очень простыми. Когда шаг отбора равен 100, в выборку будут попадать только те элементы совокупности, номера которых заканчиваются на две определенные цифры. Эти цифры задаются случайным стартовым числом. Например, если случайная стартовая точка равна 27, то надо отбирать все элементы, номера которых заканчиваются на 27 (это элементы с номерами 27, 127, 227, 327 и т.д.). При шаге отбора 50 и стартовой точке 09 в выборку попадают все элементы, номера которых заканчиваются на 09 или на 59 (это элементы с номерами 9, 59, 109, 159, 209, 259, 309, 359 и т.д.).

Кластерная выборка

Существует два основных фактора, препятствующих применению в практике исследований простой случайной выборки в «чистом» виде. Вот эти факторы.

a. Часто невозможно составить полный список всех элементов совокупности, который необходим для простого случайного отбора.

b. Отбираемые элементы равномерно распределяются по всей совокупности и, как правило, оказываются на большом удалении друг от друга. Возникающая из-за этого необходимость значительных перемещений интервьюеров от респондента к респонденту многократно увеличивает стоимость исследования.

Стратифицированная выборка не устраняет эти недостатки. Однако существует конструкция выборки, для которой не требуется наличие списка всех элементов и которая позволяет группировать отбираемые элементы. Ее идея основана на том, что в отборе участвуют не отдельные элементы совокупности, а целые группы компактно расположенных элементов. Группы элементов, участвующие в отборе, называются кластерами, а выборка, в которой отбираются кластеры, называется кластерной выборкой.

В роли кластеров могут выступать самые разные объединения элементов. Это могут быть населенные пункты, жилые кварталы или микрорайоны, школы или ВУЗы и т.п. Домохозяйства тоже являются кластерами, поскольку объединяют нескольких респондентов.

В кластерной выборке отбор проводится в два этапа. На первом этапе отбираются кластеры. На втором этапе проводится отбор элементов в тех кластерах, которые попали в выборку на первом этапе. Такой отбор называется двухступенчатым. Число ступеней отбора можно увеличить, если отбирать внутри кластеров не сами элементы, а более мелкие кластеры. Такой способ отбора называется многоступенчатым. Например, при опросе студентов можно применить четырехступенчатый отбор. Сначала выбираются ВУЗы, затем в отобранных ВУЗах выбираются факультеты, затем на отобранных факультетах выбираются группы, и наконец, в группах отбираются студенты.

Если кластеры состоят из небольшого числа элементов, то отбор элементов внутри кластеров можно не проводить, а вместо этого можно включить в выборку все элементы отобранных кластеров. А поскольку отбор элементов на последней ступени не проводится, то число ступеней отбора уменьшается на единицу. В частности, двухступенчатая выборка превращается в одноступенчатую кластерную выборку. Примером одноступенчатой кластерной выборки служит простая случайная выборка домохозяйств, когда в каждом отобранном домохозяйстве опрашиваются все его члены.

Кластерная выборка не имеет перечисленных выше недостатков простой случайной выборки. Действительно, чтобы выбрать кластеры, не надо иметь список всех элементов совокупности, достаточно иметь список всех кластеров. (Например, если при опросе городского населения в качестве кластеров используются города, то для первого этапа отбора достаточно иметь список всех городов России, который существует и легко доступен). Элементы кластерной выборки уже не распределены равномерно по всей совокупности, а расположены только внутри отобранных кластеров. Поэтому интервьюерам нет необходимости разъезжать по всей территории России, а достаточно посетить только попавшие в выборку кластеры (в нашем примере – отобранные города). Таким образом, кластерная выборка получается намного дешевле простой случайной. Но, выигрывая в стоимости, мы наверняка проигрываем в чем-то другом (так уж устроен мир, в котором всегда действуют законы сохранения). Легко догадаться, что за уменьшение стоимости придется платить уменьшением точности получаемых результатов. Чтобы понять, почему это происходит и насколько уменьшается точность выборочных оценок, рассмотрим кластерные выборки более подробно.

Для формирования кластерной выборки всю совокупность необходимо разбить на кластеры. Каждый элемент совокупности должен входить в какой-либо кластер, причем только в один. Число элементов в кластере называется размером кластера.

Разбиение совокупности на кластеры внешне напоминает ее разбиение на страты. Но между стратами и кластерами есть одна принципиальная разница. Каждая страта обязательно участвует в выборке, ни одна из страт не может быть пропущена. Кластеры же, наоборот, не могут все попасть в выборку, туда попадает только небольшая часть кластеров. Кластеры отбираются точно так же, как в обычной выборке отбираются отдельные элементы.

Знакомство с кластерными выборками начнем с наиболее простого случая, когда совокупность разделена на кластеры одинакового размера.

Невероятностные выборки

Выборки, в которых процедура отбора устроена так, что невозможно вычислить вероятность включения или не включения респондента в выборку, являются невероятностными. К таким выборкам нельзя применять статистические методы расчетов точности оценок и доверительных интервалов. Когда такие расчеты все же проводятся, нет никакой гарантии того, что истинные значения оцениваемых параметров лежат в пределах вычисляемых границ.

Наиболее характерным примером невероятностной выборки является квотная выборка.

Квотная выборка

Квотные выборки широко применяются в практике выборочных исследований, как в России, так и за рубежом.

Использование квотной выборки базируется на предположении о том, что для обеспечения хорошей точности результатов достаточно, чтобы пропорции между определенными группами респондентов в выборке были такими же, как во всей совокупности. (Однако это предположение справедливо далеко не всегда.)

Выборка добровольцев

В данном случае выборки, как таковой, вообще нет. Респондентов не отбирают каким-то особым способом, а просто приглашают участвовать в исследовании всех желающих. Вопросы, на которые нужно ответить, публикуются в газете, в журнале или в интернете, зачитываются по радио или показываются по телевидению. Все полученные ответы учитываются при обработке результатов.

Такие опросы особенно популярны на телевидении и радио. Их главным недостатком является то, что результаты отражают мнение только тех людей, кто знал об опросе и кто проявил достаточную активность, чтобы довести свой ответ до исследователя. И если группу знающих об опросе людей еще можно как-то охарактеризовать (обычно это аудитория конкретного СМИ или конкретной передачи), то охарактеризовать тех из них, кто решил ответить, значительно труднее. Часто это бывают весьма специфические люди, и нет никаких оснований полагать, что их мнение отражает мнение всех. Не может исправить ситуацию и перевзвешивание их ответов по известным социально-демографическим параметрам аудитории или всей совокупности. Поэтому опросы добровольцев используют обычно для оживления обсуждаемой темы или в рекламных целях, в серьезных исследованиях эта методика построения выборки не применяется.

Уличный опрос

В уличных опросах респондентов отбирают и опрашивают на улице. При таком способе отбора вероятность попадания в выборку очень сильно зависит от образа жизни человека. Чаще всего будут опрашивать тех, кто не сидит подолгу на одном месте и много перемещается – ходит по магазинам, посещает кафе и бары, ходит в кино, гуляет с собакой и т.п. Причем такие люди могут попасть в выборку даже не один раз, а несколько. И наоборот, в выборке будет мало людей, которые редко выходят из дома, кто много времени проводит на работе, кто не ходит по улице, а ездит на автомобиле.

Кроме этого, результаты уличных опросов зависят еще от множества факторов – от того, на каких улицах и в какое время проходит опрос, каких людей останавливают интервьюеры и т.п. Обычно единственным критерием для отбора респондентов служит выполнение интервьюером заданных квот. Но если при опросе по месту жительства можно проверить правильность выполнения квотного задания, то при уличных опросах возможность контроля практически полностью отсутствует. Интервьюер может приписать респонденту любые значения квотируемых параметров. Он может также легко опрашивать своих друзей и знакомых.

Все перечисленное делает уличные опросы крайне ненадежным инструментом, пользоваться которым не рекомендуется.

Вероятностные и невероятностные выборки

Правила отбора, которые должны быть выполнены, чтобы результаты обследования части совокупности можно было распространить на всю совокупность. Таких правил два.

I. Каждый элемент совокупности должен иметь шанс (ненулевую вероятность) быть отобранным (попасть в выборку).

II. Для каждого элемента, попавшего в выборку, должна быть известна (или вычисляема) вероятность, с которой он был отобран.

Выборки, удовлетворяющие этим двум условиям, называются случайными или вероятностными.

Все остальные выборки не являются случайными.

Теория математической статистики позволяет распространять результаты обследования части совокупности на всю совокупность только для вероятностных выборок. Для невероятностных выборок такое распространение теоретически не обосновано, а практически часто приводит к ошибкам.

В практике выборочных исследований далеко не всегда применяются вероятностные выборки. Это характерно не только для России, но и для других стран. Однако исследователи всегда стараются максимально приблизить реальную выборку к вероятностной.

Конструкция выборки определяется размером выборки n, способом отбора респондентов из совокупности.

Вероятность попадания истинного значения параметра в некоторый интервал называют доверительной вероятностью или уровнем доверия, а сам интервал называется доверительным интервалом.

Параметр - это константа, которая зависит от доверительной вероятности , с которой гарантируется попадание истинного значения параметра в указанный доверительный интервал. Величина берется из таблиц для нормального распределения, которое хорошо аппроксимирует распределение выборочной оценки . В социологии обычно используется уровень доверия = 95%. Для него полезно помнить значение константы , которое равно 1.96.

Общая ошибка выборки показывает, на сколько выборочная оценка отличается от истинного значения параметра .

В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5-процентной ошибки.

Объем генеральной совокупности (чел.)	500	1000	2000	3000	4000	5000	10000	100000	бесконечно
Объем выборки (чел.)	222	286	333	350	360	370	385	358	400

Простая случайная выборка является простейшим вариантом вероятностной выборки.

Простую случайную выборку можно определить через механизм ее формирования.

Пусть требуется сформировать выборку размера n из совокупности, состоящей из N элементов. Сначала отберем один элемент, причем отбирать его будем так, чтобы каждый из N элементов совокупности имел равную вероятность быть отобранным. Такой отбор называется отбором с равной вероятностью. Затем из оставшихся N-1 элементов отберем с равной вероятностью еще один. И так будем повторять до тех пор, пока не отберем ровно n элементов. Полученная таким образом выборка называется простой случайной выборкой или сокращенно SRS выборкой (SRS – сокращение от simple random sample), а описанный механизм называется простым случайным отбором.

Легко показать, что при простом случайном отборе каждый элемент совокупности имеет одну и ту же вероятность попасть в выборку. Эта вероятность равна .

Все элементы совокупности нумеруются числами от 1 до N. Далее используется датчик случайных чисел для отбора с равной вероятностью n разных порядковых номеров.

Датчик случайных чисел – это чаще всего компьютерная программа, которая генерирует случайные числа, удовлетворяющие заданным требованиям. Для простого случайного отбора нужен датчик, генерирующий с равной вероятностью целые числа из заданного интервала.

В Excel, например, такой датчик реализован в виде функции Randbetween(N1;N2) с двумя параметрами N1 и N2, задающими границы интервала. Есть в Excel и еще один датчик случайных чисел, генерирующий вещественные (псевдослучайные) числа, равномерно распределенные в интервале от 0 до 1. Это функция Rand() без параметров, в русскоязычных версиях Excel она называется СЛЧИС(). Чтобы с ее помощью отбирать целые числа, нужно умножить выдаваемое этой функцией случайное число на N, а затем округлить произведение вверх до целого. Получится целое случайное число в интервале от 1 до N.

Воспользовавшись датчиком n раз, можно получить n случайных чисел в интервале от 1 до N. Выборка формируется из элементов с этими порядковыми номерами. Однако прежде чем завершить отбор, необходимо проверить, что один и тот же номер не встретился в выборке два и более раз. Ведь случайный датчик может выдать какой-либо номер повторно. Каждый из повторяющихся номеров нужно оставить в выборке в единственном экземпляре. После удаления повторяющихся номеров размер выборки уменьшится. Его требуется довести до заданного размера n, генерируя новые случайные номера и добавляя в выборку новые элементы. Необходимо обеспечить выполнение двух условий: размер простой случайной выборки должен быть в точности равен n и элементы в выборке не должны повторяться.

Простая случайная выборка в «чистом» виде применяется в практике исследований крайне редко. Основные препятствия для ее применения заключаются в следующем.

1) Чтобы сформировать простую случайную выборку, необходимо составить полный список всех элементов совокупности. В большинстве случаев составить такой список невозможно. Действительно, трудно представить себе полный список всех жителей России или даже жителей крупного города, который бы адекватно отражал ситуацию на момент проведения исследования.

2) Простая случайная выборка равномерно распределяется среди всех элементов совокупности. Это значит, что место жительства попавших в выборку респондентов будет равномерно разбросано по всей территории, которую охватывает исследование. В исследованиях с широким территориальным охватом (таких, например, как всероссийские опросы) интервьюеру потребуется совершить целое путешествие, чтобы добраться от одного респондента до другого. Это делает опросы по простой случайной выборке крайне дорогостоящими. (Влияние данного фактора не распространяется на почтовые и телефонные опросы, а также на опросы через интернет).

Несмотря на это, простая случайная выборка занимает в выборочных исследованиях очень важное место. Она является эталоном, с которым сравнивают любую другую выборку, чтобы оценить ее качество. (Показателем качества выборки служит дизайн-эффект, который показывает, на сколько данная конструкция выборки лучше или хуже простой случайной). Без понимания принципов оценивания параметров в простой случайной выборке невозможен переход к выборкам более сложных конструкций. Кроме того, простая случайная выборка сама является составным элементом практически любой выборки.

Поделиться с друзьями:

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначенные для поддерживания проводов на необходимой высоте над землей, водой...