Отображение на графике несущественных данных — КиберПедия 

Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Отображение на графике несущественных данных

2019-05-27 174
Отображение на графике несущественных данных 0.00 из 5.00 0 оценок
Заказать работу

 

В мире столько всего происходит, что всегда находится место совпадениям. Количество зеленых грузовиков на дороге может увеличиваться одновременно с вашей зарплатой; когда вы были ребенком, количество телешоу могло увеличиваться так же, как и ваш рост. Но это не означает, что одно есть причина другого. Статистики называют это корреляцией.

Известно, что корреляция не подразумевает причинность, однако об этом правиле часто забывают в рассуждениях. Для ошибок такого рода в формальной логике есть две формулировки.

1.-Post hoc, ergo propter hoc8. Данное логическое заблуждение возникает из уверенности в том, что если один факт (Y) произошел после второго (X), значит, X стал причиной Y. Обычно люди чистят зубы до того, как пойти утром на работу. Но чистка зубов не есть причина, по которой они идут на работу. В данном случае все может быть наоборот.

2.-Cum hoc, ergo propter hoc9. Это логическое заблуждение состоит в том, что из совпадения по времени двух фактов заключают, что один должен быть причиной второго. Тайлер Виджен, студент юридического факультета Гарвардского университета, написал книгу и создал сайт, где собрал примеры странных совпадений — корреляций, например таких[37]:

 

 

Эти данные можно интерпретировать четырьмя разными способами: 1) смерть в бассейне вызывает выход нового фильма с Николасом Кейджем; 2) выход фильмов с Николасом Кейджем становится причиной смерти в бассейне; 3) некий третий фактор (который еще не установлен) влияет на оба показателя; 4) показатели никак не связаны между собой, и корреляция — чистой воды совпадение. Если мы не отделим корреляцию от причинности, то сможем со всей уверенностью заявить, что график Виджена «доказывает» посильную помощь Ника Кейджа в предотвращении всех этих смертей в бассейне. И нам остается только поддерживать образовавшуюся тенденцию, чтобы актер и дальше развивал свою удивительную способность, которую он с блеском продемонстрировал в 2003 и 2008 годах.

В некоторых случаях между показателями, кажущимися взаимосвязанными, нет никакой настоящей связи: факт их корреляции — просто совпадение. В других же случаях можно найти между ними случайную связь, а то и состряпать более-менее разумную историю, которая подстегнула бы к поиску новых данных.

Мы можем исключить первое объяснение, так как на создание и выпуск фильма требуется время, поэтому пик смертности от утопления не мог вызвать пик популярности Ника Кейджа в том же году. Как насчет второго пункта? Возможно, люди настолько проникаются сюжетом остродраматических фильмов Кейджа, что не помнят себя и, как следствие, тонут. Возможно, по той же причине увеличивается и количество автомобильных аварий, а также травм, полученных в результате работы с тяжелым оборудованием. Мы не найдем ответов на эти вопросы, пока не проанализируем больше данных.

Что же насчет третьего фактора, который влияет на оба показателя? Можно предположить, что влияние оказывает экономика государства: чем более она развита, тем больше инвестиций идет в досуг — выпускается больше фильмов, люди чаще ездят в отпуск, ходят плавать. Если это так, то ни одна из ситуаций, частоту которых описывает график, — выход фильма Ника Кейджа и утопление — не бывает причиной другой. Свою роль тут сыграл третий фактор — экономика, — он и приводит к изменениям в обоих случаях. Статистики называют это третьим фактором x. И подобных случаев множество.

Вероятнее всего, эти две ситуации совсем никак не взаимосвязаны. А если присмотреться и хорошенько подумать, то мы обязательно обнаружим, что здесь одновременно изменяются два не связанных друг с другом показателя.

Продажи мороженого увеличиваются одновременно с ростом числа людей в шортах. Нельзя сказать, что один из фактов — причина второго. Третий фактор x, который на самом деле влияет на оба факта, — это повышение температуры летом. Количество телешоу, выпущенных в эфир в то время, когда вы были ребенком, возможно, коррелировало с вашим ростом, но несомненно, что причиной одинакового изменения обоих показателей стал общий период времени, когда: а) телевидение расширяло свой рынок и б) вы росли.

Как же тогда понять, в каких случаях корреляция указывает на причинность? Во-первых, можно провести контролируемый эксперимент. Во-вторых, включить логику. Но будьте внимательны — тут легко утонуть в трясине пустословия: это дождь вчера вынудил людей надеть дождевики? Или причиной стало желание не намокнуть, появляющееся, когда идет дождь?

Эту идею хорошо представил Рэнделл Манро10 в своем веб-комиксе xkcd: разговаривают две фигурки, очевидно, студенты колледжа[38]. Один говорит, будто раньше думал, что корреляция подразумевает причинность. Потом, правда, походил на занятия по статистике и теперь уже так не думает. На что второй студент отвечает: «Кажется, занятия сделали свое дело». А первый ему на это: «Да, может быть».

 

Обманчивые иллюстрации

 

Инфографика в большом почете у разных ловкачей и пройдох, которым нужно сформировать мнение аудитории, и полагаются они на то, что большинство людей не станут вникать в то, что выглядит убедительно. Вот, например, посмотрите на этот рисунок. Возможно, с его помощью кто-то хотел напугать вас и заставить думать, что быстро растущая инфляция съедает все ваши с таким трудом зарабатываемые деньги:

 

 

Выглядит страшновато, правда? Но присмотритесь. Ножницы отрезают не 4,2 % от банкноты, а около 42 %. Когда ваша визуальная система сталкивается с логической, первая всегда выходит победителем, если только вы не приложите усилий, чтобы переломить это предубеждение[39]. Точная инфографика выглядела бы похоже, но производила бы менее сильный эмоциональный эффект:

 

 

Интерпретация и фрейминг

 

Иногда статистические данные собраны и описаны как следует, а вот переданы неверно, потому что тот, кто передавал, — не важно, будь то журналист или адвокат, — не специалист в этом вопросе. И ошибки он допускает либо потому, что сам не понял, либо потому, что не осознавал, что малейшее изменение в формулировке может привести к изменению в смысле.

Часто у тех, кому хочется использовать статистику, в штате нет статистиков, и в поиске ответов на свои вопросы они попадают к тем, у кого нет соответствующей компетенции. Корпорации, правительственные учреждения, некоммерческие организации, семейные бакалейные лавочки — все они пользуются статистическими данными о продажах, клиентах, тенденциях, сетях снабжения. Некомпетентность может проявиться на любой стадии: во время проведения эксперимента, сбора данных, анализа или интерпретации.

Иногда бывает так, что публикуемые статистические данные нерелевантны. Если вы пытаетесь убедить своих акционеров, что дела вашей компании идут в гору, то, возможно, стоит предложить статистические данные по годовым продажам и показать уверенно растущие цифры. Но если рынок, на котором представлен ваш продукт, растет и развивается, от вас будут ждать увеличивающихся продаж. Инвесторов и аналитиков волнует, изменилась ли ваша доля на рынке. Но как сделать отчет более привлекательным, если эта доля уменьшается, потому что налетели конкуренты и теперь уводят ваших клиентов? Ответ прост: не предоставлять релевантную статистику по доле на рынке — вместо этого покажите статистику продаж. Продажи-то растут! Значит, все хорошо!

Финансовые показатели из заявлений на ипотеку 25-летней давности, вероятно, не сильно помогут в построении модели риска сегодня. Любая модель поведения потребителей на сайте устаревает очень быстро[40]. Статистические данные о прочности бетона, использованного для эстакад, возможно, уже не релевантны для мостов (отличия могут быть вызваны влажностью и иными факторами, даже в случае, если в обоих инженерных проектах использовался один и тот же бетон).

Все вы наверняка слышали фразы типа «Четверо стоматологов из пяти рекомендуют зубную пасту Colgate». И это правда. Рекламное агентство, стоящее за этим существующим на протяжении многих лет слоганом, хочет донести до вас мысль, что стоматологи предпочитают Colgate всем другим брендам. Но это не так. Комитет рекламных стандартов Великобритании изучил утверждение слогана и счел его нечестным. Выяснилось, что в ходе опроса стоматологи могли рекомендовать более одной зубной пасты. И, как оказалось, самого крупного конкурента Colgate рекомендовали почти так же часто, как и Colgate (деталь, которую вы никогда не найдете в рекламе этой пасты)[41].

Мы говорили о фрейминге, обсуждая средние, еще раз мы его коснулись, говоря о графиках. Манипуляция фреймами предоставляет бесконечное количество способов заставить кого-нибудь верить в то, чего на самом деле нет. А нужно всего лишь остановиться и подумать о том, что вам говорят. Представители C-SPAN11 уверяют, что их сеть «доступна» в 100 миллионах домов[42]. Но это не означает, что 100 миллионов людей смотрят C-SPAN. Это даже не означает, что его смотрит хотя бы один человек[43].

Манипуляции с фреймами могут оказывать влияние на общественный порядок. Изучение результатов переработки мусора на самых разных улицах Лос-Анджелеса показывает, что одна конкретная улица перерабатывает в 2,2 раза больше, чем любая другая. Но прежде чем городской совет даст жителям этой улицы награду за их старания в области сохранения города зеленым, давайте зададимся вопросом: что может так сильно влиять на это количество? Как вариант, на этой улице проживает в два раза больше человек, чем на других, — возможно, потому что она длиннее, возможно, потому что на ней больше многоквартирных домов. Измерение объемов переработки мусора на уровне улицы нельзя считать релевантным показателем, если только все улицы не идентичны. Наиболее точные статистические данные можно получить либо по квартирам (замерить объемы переработки для каждой семьи), либо по каждому жителю — что даже лучше, потому что большие семьи потребляют больше, чем те, где народу меньше. Поэтому, проводя эксперимент, нужно учитывать не только объем собранного материала для переработки, но и количество людей, живущих на улице. И именно это и будет настоящим фреймом для статистика.

В 2014 году Los Angeles Times сообщила об объемах воды, которая используется в городе Ранчо-Санта-Фе, расположенном в засушливой Калифорнии[44]. «Ежедневное потребление воды домашними хозяйствами в этом районе вышло в среднем почти в пять раз больше, чем в прибрежных районах Южной Калифорнии в сентябре. Из-за этого Санта-Фе теперь называют самым большим насосом в штате». «Домашнее хозяйство» в данном случае — нерелевантный фрейм для этого статистического результата. Фрейм «на душу населения» подошел бы гораздо лучше. Возможно, у жителей Ранчо-Санта-Фе большие семьи, что автоматически означает б о льшую потребность в воде для душа, туалета, мытья посуды. Другой подходящий фрейм — использование воды из расчета на акр. Дома, расположенные в Ранчо-Санта-Фе, как правило, обладают большими придомовыми территориями. Может, в целях пожарной безопасности, может, по каким-то иным причинам гораздо целесообразнее держать землю засаженной зеленой растительностью, а на земельных участках в Ранчо-Санта-Фе на один акр потребляют не больше воды, чем в любом другом месте штата.

На самом деле в материалах New York Times можно найти кое-какую информацию по этому вопросу: «Чиновники, отвечающие за государственные водные ресурсы, запретили сравнивать потребление воды на душу населения в разных районах. По их словам, они ожидают, что в более состоятельных районах с большими земельными участками потребление будет выше».

Проблема со статьей заключается в том, что в ней фреймят данные, чтобы те выглядели так, словно жители Ранчо-Санта-Фе используют воды больше, чем им положено. Но данные, которые приводит газета, — как и в случае с переработкой мусора в Лос-Анджелесе, описанном выше, — не говорят об этом ни слова.

Указание пропорций, а не фактических цифр часто помогает построить верный фрейм. Представим, что вы работаете в компании, занимающейся продажами потоковых конденсаторов, и отвечаете за реализацию товара в Северо-Западном регионе. Ваши продажи сильно увеличились, но все равно еще недотягивают до результатов вашего соперника Джека, отвечающего за Юго-Западный регион. Вряд ли это справедливо — его территория не только больше географически, на ней живет и больше народу. Бонусы в вашей компании зависят от того, покажете ли вы начальству, что успешны в продажах.

Представьте начальству свой отчет о продажах в зависимости от площади или населения региона, в котором работаете. Иными словами, вместо того чтобы рисовать график продаж потоковых конденсаторов, покажите количество, приходящееся на душу населения в этом регионе или на квадратную милю. В обоих случаях, возможно, вы обойдете своего соперника.

Судя по сообщениям в новостях, 2014 год принес наибольшее количество смертей в результате авиакатастроф: 22 падения самолета и 992 человеческие жертвы. Но сегодня путешествия на самолете стали безопаснее, чем когда-либо[45]. А так как и летают теперь намного чаще, это число, 992 погибших, говорит о значительном уменьшении числа смертей на миллион пассажиров (или миллион миль). На рейсе крупной авиакомпании вероятность погибнуть составляет один на пять миллионов. Гораздо выше риск погибнуть при других обстоятельствах: переходя дорогу или жуя бутерброд (смерть от того, что человек поперхнулся или отравился, вероятнее в тысячу раз). Здесь очень важны базовые показатели сравнения. Эти статистические данные растянуты во времени на целый год — год авиаперелетов, год перекусов бутербродами (в результате чего можно либо поперхнуться, либо отравиться). Поменяв базовый показатель, можно рассматривать каждый отдельный вид деятельности (перелет, жевание) на часовом промежутке времени — и это изменит статистику.

 


Поделиться с друзьями:

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.017 с.