Мухи отдельно, котлеты отдельно — КиберПедия 

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Мухи отдельно, котлеты отдельно

2019-05-27 219
Мухи отдельно, котлеты отдельно 0.00 из 5.00 0 оценок
Заказать работу

 

Отличный способ жульничать с помощью статистики — сравнивать отличающиеся друг от друга вещи (данные, совокупности, типы продуктов) и при этом делать вид, что разницы между ними нет. Но, как гласит известное выражение, «мухи отдельно, котлеты отдельно».

Если использовать этот сомнительный метод, то можно прийти к такому заявлению: «Находиться на военной службе во время открытого конфликта (например, во время войны в Афганистане) гораздо безопаснее, нежели в тылу». Ход рассуждения будет таким: в 2010 году погибло 3482 американских военнослужащих[49]. Исходя из общего числа военнослужащих — а их 1 431 000 человек, — получим 2,4 смертельных случая на тысячу человек[50]. На территории Соединенных Штатов количество смертей в 2010 году составило 8,2 на тысячу человек[51]. Иными словами, находиться на службе в военной зоне в три с лишним раза безопаснее, чем жить в Соединенных Штатах.

Давайте разберемся. Выборки очень разные, поэтому их нельзя сравнивать «в лоб». В действующей армии служат молодые здоровые солдаты, в их распоряжении питательные обеды и хорошее медицинское обслуживание. Население Соединенных Штатов весьма разнообразно: здесь проживают и старики, и больные, и гангстеры, и наркоманы, и любители погонять на мотоциклах, и любители игры в «ножички», а также огромное количество тех, у кого нет ни питательных обедов, ни медицинского обслуживания[52]. Смертность среди этих людей высока, где бы они ни находились. А действующие военнослужащие не все находятся в зоне военных действий — некоторые проходят службу на безопасных базах, сидят в офисах Пентагона или же на призывных пунктах в торговых центрах районного масштаба.

Новостной журнал U.S. News & World Report как-то опубликовал статью, в которой приводилось соотношение демократов и республиканцев начиная с 1930-х годов. Проблема в том, что за это время принципиально поменялась сама процедура формирования выборки. В 1930-х и 1940-х респондентов отбирали в личном разговоре, а также с помощью адресных списков, созданных на основе телефонных справочников. К 1970-м опросы стали делать исключительно по телефону. В начале XX века при формировании выборки скорее учитывали тех, у кого был стационарный телефон, то есть людей с достатком, а они — во всяком случае, в то время — имели обыкновение голосовать за республиканцев. К 2000-м перешли на мобильные телефоны, из-за чего произошел явный перекос в сторону молодежи, отдававшей свои голоса, как правило, за демократов. Мы на самом деле не знаем, изменилась ли пропорция демократов и республиканцев с 1930-х годов, так как выборки не поддаются никакому сравнению. Нам кажется, мы изучаем одно, а на самом деле — другое.

Похожая проблема возникает, когда говорят о снижении уровня смертности в результате мотоциклетных аварий по сравнению с тем, что было три десятилетия назад. Сейчас в сводках упоминается больше трехколесных мотоциклов, а в прошлом столетии доминировали двухколесные модели; можно вспомнить тот факт, что когда-то шлемы были не обязательны, сейчас же их наличие в большинстве штатов оговаривается законом.

Остерегайтесь меняющихся выборок, когда делаете выводы! Журнал U.S. News & World Report (да, снова он) сообщил, что за прошедший 20-летний период увеличилось число врачей, при этом средняя зарплата значительно снизилась[53]. Что же из этого следует? Вы можете сделать вывод, что сейчас не лучшее время, чтобы обучаться профессии врача, потому что их теперь пруд пруди (а избыточное предложение на рынке стало причиной снижения зарплаты). Возможно, это и так, но в защиту этого утверждения нет ни одного доказательства.

Вполне правдоподобно звучит заявление, что благодаря сужению специализации и росту технологий, наблюдаемым на протяжении последних 20 лет, у врачей появилось больше профессиональных возможностей — как следствие, на рынке стало больше доступных вакансий, особенно на фоне увеличения общего числа врачей. Так что же насчет снижения зарплаты? Возможно, дело в увольнении пожилых специалистов, которых заменили более молодые, согласные — в силу отсутствия опыта — на более низкую зарплату. Но и таких доказательств тоже нет. Важная составляющая статистической грамотности — понимать, что некоторые данные, подобно тем, что мы рассмотрели в этом примере, просто нельзя интерпретировать.

Иногда вот такая путаница с котлетами и мухами происходит от сравнения противоречивых подвыборок — потому что вы проигнорировали какую-то деталь, сочтя ее неважной. Например, отбирая пробы кукурузы на поле, обработанном новым удобрением, вы можете не обратить внимания на то, что некоторые початки получали больше солнца, а некоторые — больше воды. Или при исследовании влияния потока машин на частоту проведения ремонтных работ от вашего внимания может ускользнуть тот факт, что на определенных улицах больше водостоков, чем на других, и потому там чаще возникает необходимость ремонтировать асфальтовое покрытие.

Говорят, что происходит объединение выборок, когда данные о разнородных объектах соединяют в одну категорию, как в случае с яблоками и грушами. Если вас интересует количество шестеренок, выпущенных с дефектом, можно объединить данные по разным их видам и получить необходимые вам цифры в зависимости от того, какую цель вы преследуете.

Допустим, вам интересно сравнить сексуальное поведение детей в возрасте 10–12 лет и подростков постарше. То, каким образом вы объедините данные, может существенно повлиять на то, как люди их потом воспримут. Если перед вами стоит задача найти деньги на создание образовательных и консультационных центров, можно заявить нечто вроде: «70 % школьников в возрасте от 10 до 18 лет ведут половую жизнь». Нас не удивляет, что в этой категории 17- или 18-летние школьники, — но десятилетки! Такие заявления могут повергнуть в шок их бабушек и дедушек, которых придется отпаивать валерьянкой. Но ведь понятно же, что в общей категории, к которой отнесли и десятилетних детей, и 18-летних подростков, оказались и те, кто ведет половую жизнь, и те, кто нет. Гораздо правильнее было разбить всех участников исследовании на группы, объединив по возрасту и имеющемуся у них жизненному опыту: например, 10–11 лет, 12–13, 14–15, 16–18.

Но и это не единственная проблема. Что вообще имеется в виду под словосочетанием «вести половую жизнь»? Какой конкретно вопрос задавали школьникам?

И вообще, действительно ли опрашивали школьников? Может статься, на все эти вопросы отвечали родители. На полученные данные могли повлиять разные факторы. Слова «вести половую жизнь» можно понимать по-разному. И ответы могут разниться в зависимости от того, как понимать вопрос. Ну и, конечно, респонденты не обязательно говорили правду.

Или вот еще пример: допустим, вы захотели поговорить о безработице как об общей проблеме, но тут возникает риск объединения в одной выборке людей с самым разным жизненным опытом. Некоторые безработные физически недееспособны; другие были уволены по объективной причине, например потому что были пойманы с поличным во время кражи или потому что пришли на работу в нетрезвом виде. Кто-то хотел бы работать, но ему не хватает квалификации; кто-то отбывает срок; кто-то больше не хочет работать, потому что снова начал учиться, ушел в монастырь или находится на иждивении. Когда статистику используют, чтобы повлиять на государственную политику, собрать деньги на какое-то дело или чтобы выпустить газету с заголовком поярче, нюансы часто опускают. А ведь именно они порой кардинально меняют дело.

Эти нюансы часто говорят сами за себя[54]. Люди теряют работу по разным причинам. Вероятность того, что алкоголик или вор станет безработным, может быть в четыре раза выше, чем в случае с любым другим человеком. И подобные детали часто теряются при объединении выборок. Учитывая эти факторы в своем анализе данных, вы четко увидите, кто безработный и почему, а это, в свою очередь, может привести к разработке более качественных обучающих программ или к открытию дополнительных центров анонимных алкоголиков в том городе, где эти организации необходимы.

Если в разных центрах, изучающих поведение людей, используют для вещей разные определения, а для их измерения разные методы, то статистические данные будут очень разнородными, несравнимыми. Например, вы хотите определить количество пар, живущих вместе, но не зарегистрировавших свои отношения, — тогда в вашем распоряжении данные, уже собранные разными государственными агентствами. Но варьирующиеся определения могут привести к проблеме с категоризацией: что означает «жить вместе»? Определяется ли это количеством проведенных вместе ночей в неделю? Или тем, где находятся личные вещи живущих вместе людей? А может, тем, где они получают почту? Некоторые органы государственной власти юридически признают однополые пары, другие — нет. Если вы соберете данные в разных местах и разными методами, ваша статистика окажется почти бессмысленной. Если методология записи, сбора и замера данных сильно варьируется в отношении ключевых моментов, то в итоге статистические данные будут отражать не то, что видится в них вам.

Последние исследования показали, что уровень безработицы среди молодежи в Испании составил 23 %, — и это поразительно. В отчете в одну группу были объединены люди, которые при других обстоятельствах оказались бы в разных: тут были и студенты, не заинтересованные в поиске работы, и те, кого только что уволили, и те, кто находился в поисках работы.

Для отслеживания безработицы в Соединенных Штатах существует шесть разных индексов (обозначенных U1–U6), которые отражают разные интерпретации понятия «безработный»[55]. Сюда относятся те, кто ищет работу, и те, кто еще учится и не ищет, и те, кому интересна работа на полный рабочий день, при том что они работают только неполный, и т. д.

В газете USA Today за июль 2015 года сообщалось, что уровень безработицы упал до 5,3 % и что это был «самый низкий уровень начиная с апреля 2008 года»[56]. Более компетентные источники, включающие агентство Associated Press, журнал Forbes и газету New York Times, называли свою причину очевидного снижения: многие безработные просто бросили попытки найти работу и потому чисто технически уже не могли считаться рабочей силой[57].

Объединение выборок, однако, не всегда приводит к неверным выводам. Вы можете объединить результаты учеников школы обоих полов, особенно если нет никаких доказательств того, что эти результаты на самом деле разные. Таким образом вы можете увеличить размер выборки (и получить более устойчивую оценку того, что изучаете). Интерпретацию затрудняют только слишком широкое определение категории (как в случае с сексуальной активностью школьников, о которой мы говорили ранее) или противоречивые определения (как с парами, живущими вместе). Если объединить выборки правильно, это поможет сделать правильный анализ данных.

Предположим, вы работаете в штате Юта. Один крупный производитель детской одежды подумывает о том, чтобы переехать в ваш штат. И вам в голову приходит мысль указать ему на высокий уровень рождаемости в Юте. Таким образом вы рассчитываете привлечь его внимание. Для этого вы заходите на сайт Census.gov и размещаете сведения о рождаемости:

 

 

Юта выглядит лучше, чем Аляска, Вашингтон, Монтана, Вайоминг, Северная и Южная Дакота и небольшие штаты Северо-Востока. Но вряд ли можно сказать, что количество рождений там зашкаливает, особенно по сравнению с Калифорнией, Техасом, Флоридой и Нью-Йорком. Но погодите-ка, та карта, которую вы составили, показывает общее число рождений, а оно обязательно тем больше, чем больше население штата. Вместо этого вы могли бы составить карту с количеством новорожденных на тысячу жителей:

 

 

Это не помогает. Юта выглядит так же, как и остальные штаты. Что же делать? Поменяйте цвет! Вы можете поиграть с количеством величин в каждой категории — я имею в виду те полоски в самом низу, от серого до совсем черного. Удостоверившись, что уровень рождаемости Юты отображен отдельной категорией, вы заставите эти данные выделяться на фоне остальных.

 

 

Конечно, это стало возможно только потому, что у штата Юта действительно самый высокий уровень рождаемости — ненамного, но все же. Выбрав для него «корзину» отдельного цвета, вы заставили его выделяться.

Если бы вы захотели сделать то же самое с остальными штатами, вам пришлось бы прибегнуть к трюкам иного рода, например показать, сколько детей рождается на квадратную милю или на магазин сети Walmart, — и таким образом получить функцию от чистого дохода. Дайте волю фантазии, прикиньте разные варианты — и вы cможете привести аргументы в пользу любого из 50 штатов.

А как же правильно изобразить такие данные? Это вопрос спорный, но, пожалуй, одним из нейтральных способов будет объединение данных так, чтобы по 20 % штатов попали в одну из пяти категорий, каждая из которых отмечена своим цветом:

 

 

Другой вариант — сделать «корзины» одинакового размера:

 

 

Такой вид статистического обмана — использование категорий разных размеров на всех картограммах, кроме последней, — часто появляется в гистограммах. На приведенной ниже диаграмме показан средний процент числа подач16 50 лучших игроков Главной лиги бейсбола в сезоне 2015 года[58]:

 

 

Итак, предположим, что вы игрок, средний коэффициент результативности отбивания которого равен 0,330, — и этот факт определяет вас во вторую по высоте категорию. Настало время раздачи бонусов, и вы не хотите, чтобы у вашего руководства нашлись хоть какие-нибудь причины отказать вам в премии в этом году, — вы уже купили Tesla. Поэтому просто измените ширину «корзин», объединив свои результаты с результатами двух игроков, чей коэффициент результативности равен 0,337, — и вот вы уже среди лучших игроков. Сомкните строй столбцов (в «корзине» 0,327 больше нет бэттеров), сделав разрыв оси X, который могут заметить лишь немногие.

 

 


Поделиться с друзьями:

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.035 с.