Истории, рассказанные данными — КиберПедия 

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Истории, рассказанные данными

2019-12-21 149
Истории, рассказанные данными 0.00 из 5.00 0 оценок
Заказать работу

Во многих случаях детализация данных для меня ценнее локального поиска для конкретного исследования, поскольку она предлагает новый способ видения и описания жизненных процессов.

Когда люди узнают, что я – и ученый, занимающийся сбором и анализом данных, и писатель, они иногда делятся каким-либо фактом или результатами опроса. Я часто нахожу эти сведения скучными, обобщенными и лишенными жизни. Они не сообщают мне никаких интересных историй.

Помимо этого, друзья пытались уговорить меня начать читать различные романы и биографии. Но меня это тоже мало интересует. Я всегда спрашиваю себя: «Происходило ли подобное в других ситуациях? Каков более общий принцип?» Их истории кажутся мелкими и непоказательными.

Я попытался изложить в этой книге нечто, на мой взгляд, не имеющее аналогов. Оно основано на данных и цифрах; оно показательно и позволяет заглянуть далеко вперед. И при этом большие данные – настолько обширный материал, что позволяют представить себе описываемых ими конкретных людей. Когда мы составляем поминутный график расхода воды в Эдмонтоне, я вижу, как люди встают с дивана в конце хоккейного периода. Когда мы внимательно изучаем людей, переезжающих из Филадельфии в Майами и начинающих мухлевать с налогами, я вижу, как они разговаривают со своими соседями и узнают о налоговых трюках. Когда мы детально анализируем статистику о бейсбольных болельщиках разного возраста, я вижу свое детство, детство брата, а также миллионы взрослых мужчин, все еще неистово болеющих за команды, завоевавшие их сердца, когда им было по восемь лет.

Рискуя в очередной раз впасть в пафос, я должен сказать: упомянутые в этой книге экономисты и ученые, занимающиеся сбором и анализом информации, создали не просто новый инструмент, но новый жанр. В этой главе и в большей части этой книги я попытался описать данные – настолько подробные и многочисленные, что позволяют нам добиться предельно точной детализации. Не ограничиваясь информацией о каком-либо конкретном обычном человеке, мы с их помощью все еще можем рассказывать разнообразные и запоминающиеся истории.

Глава 6
Весь мир – лаборатория

27 февраля 2000 года{135} в кампусе Google в Маунтин-Вью, начинался как обычный день. Светило солнце, велосипедисты крутили педали, массажистки занимались массажем, сотрудники увлажняли себе кожу огуречной водой. И вдруг в этот самый обычный день нескольким инженерам Google пришла в голову идея, оказавшая невероятное влияние на развитие интернета. Разработчики нашли наилучший способ заставить вас переходить на сайты, оставаться на них и возвращаться туда снова.

Прежде чем описывать то, что они сделали, мы должны поговорить о разнице между корреляцией и причинностью – это огромная проблема в области анализа данных, которой мы еще не уделили должного внимания.

СМИ каждый день бомбардируют нас результатами исследований на базе корреляций. Например, мы уже рассказывали, что физическое состояние у умеренно потребляющих алкоголь, как правило, лучше, чем у не умеющих остановиться. То есть наблюдается корреляция.

Значит ли это, что если пить немного, то здоровье улучшится – является ли это причинно-следственной связью? Пожалуй, нет. Скорее, потреблять алкоголь в небольших дозах людям позволяет как раз хорошее здоровье. Социологи называют это обратной причинно-следственной связью. Или, возможно, существует независимый фактор, приводящий как к нежеланию много пить, так и к хорошему здоровью. Например, если вы проводите много времени с друзьями, это приводит к потреблению алкоголя и крепкому здоровью. Социологи называют это смещением с опущенной переменной.

Но как нам точнее установить причинно-следственную связь? Золотой стандарт – это рандомизированное контролируемое испытание. Вот как это работает. Людей наугад делят на две случайные группы. Одну, рабочую, просят сделать или взять что-то. Другую, контрольную, не просят. После чего наблюдают за реакцией каждой группы. Разница в результатах и является причинно-следственной связью.

Например, чтобы проверить, приводит ли умеренное употребление алкоголя к хорошему здоровью, можно случайным образом выбрать несколько человек. Некоторые из них будут пить один бокал вина в день в течение года, а другие не будут. А затем сравнить их состояние здоровья. Поскольку люди были разбиты на две группы случайным образом, нет никаких оснований ожидать, что в одной из них участники будут более здоровы или более социализированы. Вы можете поверить, что эффект вина совершенно обычен. Рандомизированные контролируемые испытания являются самым надежным доказательством в любой сфере деятельности. Если таблетка успешно прошла такой тест, ее можно начинать продавать. Если она не может пройти его, ее не будет на аптечных полках.

Подобные эксперименты начинают все чаще использоваться в социальных науках. Эстер Дюфло, французский экономист из Массачусетского технологического института, возглавила кампанию за более широкое распространение таких исследований в экономике развития – области знаний, пытающейся найти наилучшие способы помочь беднейшим людям в мире. Рассмотрим эксперимент Дюфло и ее коллег, посвященный улучшению образования в сельских районах Индии, где более половины учащихся средних школ не могут прочитать простое предложение. Одной из потенциальных причин проблем является нехватка учителей. На данный момент в некоторых школах в сельских районах Индии не хватает более 40 % преподавателей.

В чем суть теста Дюфло? Они с коллегами случайным образом разделили школы на две группы. В одной (рабочая группа) в дополнение к базовой заработной плате учителям каждый день платили небольшую сумму – 50 рупий, или около 1,15 долларов. В других преподаватели работали без дополнительной оплаты. Результаты были показательны. Когда учителям доплачивали, они в полтора раза реже пропускали работу{136}. Успеваемость школьников тоже существенно улучшилась – особенно это касалось молодых девушек. К концу эксперимента в школах, где учителям платили за приход на занятия, стало на 7 % больше девочек, умеющих читать и писать.

Согласно статье в «New Yorker», когда Билл Гейтс узнал{137} о работе Дюфло, он был настолько впечатлен, что сказал ей: «Мы должны финансировать вас».

Азбука А/B-тестирования

Итак, рандомизированные испытания являются золотым стандартом для доказательства причинно-следственных связей, и их использование распространилось на социальные науки. Теперь вернемся в офис Google в день 27 февраля 2000 года. Благодаря чему тогда произошла революция в интернете?

В тот день несколько инженеров решили провести эксперимент на сайте Google. Они случайным образом разделили пользователей на две группы. В рабочей была показана новая страница результатов поиска с 20 ссылками, а в контрольной – старая, с 10. Затем специалисты сравнили удовлетворенность представителей обеих групп, основываясь на том, как часто они возвращались в Google.

Революция? Поначалу это не казалось столь уж революционным. Я уже отметил, что подобные эксперименты использовались фармацевтическими компаниями и социологами. Так можно ли считать простой их перенос в другую область таким уж большим делом?

Ключевой момент – и это быстро поняли инженеры Google – заключался в том, что эксперименты в виртуальном мире имеют огромное преимущество перед исследованиями в реальном мире. Они так же убедительны, но менее ресурсоемки. По ходу дела Дюфло нужно было общаться со школами, организовать финансирование, платить части учителей и проверять уровень всех учащихся. Реальные эксперименты могут стоить тысячи или сотни тысяч долларов, и на их проведение могут уйти месяцы или годы.

В цифровом мире подобные исследования можно проводить дешево и быстро. Вам не нужно нанимать участников и платить им. Вместо этого можно просто написать строку кода и случайным образом составить группы. Для исследования вам не нужны пользователи – можно измерять перемещения мыши и клики. Нет необходимости вручную писать код и анализировать ответы – можно написать программу, которая будет автоматически делать это за вас. Вам не придется ни с кем связываться. Вам даже не придется объяснять людям, что они являются частью эксперимента.

Это четвертое преимущество больших данных: они позволяют проводить рандомизированные испытания, помогающие гораздо легче находить реальные причинно-следственные связи в любое время и практически в любом месте – важно только наличие доступа в интернет. В эпоху больших данных весь мир – большая лаборатория.

Понимание этого быстро распространилось в Google, а затем по всей Силиконовой долине, где рандомизированные испытания были переименованы в «А/B-тесты». В 2011 году инженеры Google провели семь тысяч А/B-тестов{138}, и с тех пор их число только растет.

Если Google хочет знать, как заставить людей кликать на рекламу на его сайтах, компания может использовать в баннерах два оттенка синего: один для группы А, другой для группы Б, а затем сравнить количество кликов. Конечно, простота такого тестирования может привести к злоупотреблениям. Некоторые сотрудники считали, что, поскольку тестирование настолько легкое, Google утонет в экспериментах. В 2009 году один несостоявшийся дизайнер уволился после того, как в ходе очередного А/B-тестирования был использован 41 незначительно отличающийся оттенок синего{139}. Но протест этого дизайнера против навязчивого исследования конъюнктуры рынка и в поддержку искусства практически не остановил распространение данной методологии.

Сегодня Facebook выполняет{140} тысячи А/В-тестов в день – это означает, что небольшое число инженеров за это время запускают больше рандомизированных контролируемых испытаний, чем вся фармацевтическая отрасль за год.

А/В-тестирование распространилось за пределы крупнейших технологических компаний. Бывший сотрудник Google Дэн Сирокер применил эту методику в первой президентской кампании Барака Обамы. Он выполнил А/В-тестирование дизайна главной страницы сайта кампании, полей электронной почты и формы пожертвований. Позже Сирокер основал компанию Optimizely{141}, предоставляющую организациям услуги по экспресс-А/B-тестированию. В 2012 году за помощью к Optimizely обратились и Обама, и его соперник Митт Ромни – чтобы максимизировать количество регистраций, добровольцев и пожертвований. Ее услугами пользуются TaskRabbit и журнал «New York».

Чтобы понять, насколько ценно подобное тестирование, учтите: Обама использовал его для привлечения большего количества людей в свою предвыборную кампанию. Главная страница сайта президента изначально включала картинку с его изображением и кнопку под ней, приглашавшую людей: «Зарегистрируйтесь».

 

Было ли это наилучшим способом привлечь людей? С помощью Optimizely команда Обамы могла проверить, не помогут ли другие изображение и кнопка привлечь больше людей. Будут ли люди нажимать на кнопку чаще, если лицо Обамы на фото будет более торжественным? А если на кнопке будет написано: «Присоединяйтесь»? Пользователям были продемонстрированы различные комбинации картинок и кнопок, а затем подсчитано, сколько из них при каком варианте нажали на кнопку. Посмотрите варианты на следующей странице и попробуйте угадать выигрышную комбинацию.

Выиграли фотография семьи Обамы и кнопка «Узнайте больше». Это была победа. При использовании такой комбинации Обама получил на 40 % больше зарегистрированных пользователей, что добавило кампании дополнительное финансирование в объеме примерно 60 млн долларов{142}.

Тестируемые снимки

 

Тестируемые кнопки

 

 

И еще один большой плюс в том, что подобные тесты можно проводить дешево и легко: это освобождает нас от вечной зависимости от интуиции, которая, как отмечалось в главе 1, имеет свои ограничения. Основная причина важности А/В-тестирования заключается в том, что люди непредсказуемы. Интуиции часто не удается предсказать их реакцию.

Выигрышная комбинация

 

 

Было ли ваше шестое чувство право относительно оптимального вида сайта Обамы?

Вот еще несколько проверок для вашей интуиции. «Boston Globe» провел А/Б-тесты заголовков{143} – выяснить, какие из них привлекут наибольшее внимание людей, заставив их кликнуть на статью. Попробуйте угадать победителей:

 


Поделиться с друзьями:

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.021 с.