Исследователи допустили множество математических ошибок. — КиберПедия 

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Исследователи допустили множество математических ошибок.

2021-10-05 22
Исследователи допустили множество математических ошибок. 0.00 из 5.00 0 оценок
Заказать работу

Никто не знает, что на самом деле произошло, но даже не глядя на необработанные данные, мы знаем, что ошибки были допущены. Это как если бы вы бродили по Нью-Йорку и увидели, как страус пытается утащить рождественского эльфа, стоящего у магазина: вы не знаете, что именно пошло не так, но понимаете, что это ненормально. На момент написания этой главы авторы исследования так и не ответили Томас, а журнал не отозвал статью. (Кстати, я делаю ставку на причину номер три.)

Третья выбоина: процедурные ошибки. Так же как вы можете испечь отвратительный пирог, следуя плохому рецепту или случайно добавив соль вместо сахара, можно испортить эксперимент плохим планированием или проведением. Простые ошибки могут оказаться разрушительными. Например, в недавнем исследовании, связавшем черты личности с политической позицией, ученые случайно перепутали переменные для консервативных и либеральных взглядов. Поэтому все связи, о которых они сообщили, были полярно противоположны фактическим. Вместо подтверждения типичного вывода о том, что люди, получившие высокий балл в личностном опроснике Айзенка[117] (что обычно ассоциируется с жесткостью, авторитаризмом и консервативными военными взглядами), ученые написали: «Вопреки нашим ожиданиям, высокие результаты коррелируют с более либеральными военными взглядами». Да, вышло не очень хорошо[118].

Процедурные ошибки также могут быть намного сложнее. Давайте поговорим об исследовании PREDIMED (Prevention with Mediterranean Diet, «профилактика с помощью средиземноморской диеты»), которое должно было окончательно ответить на вопрос о том, снижает ли эта система питания риск развития сердечно-сосудистых заболеваний. (Если вы забыли, то средиземноморская диета была модной до кетогенной. Тот, кто ее придерживается, в основном ест растения, вымоченные в оливковом масле, и иногда добавляет к ним рыбу и бокал красного вина.)

PREDIMED было масштабным долгосрочным рандомизированным контролируемым исследованием: за пять лет в нем приняло участие почти пять тысяч человек. Вероятно, оно обошлось дороже, чем реактивный самолет бизнес-класса Gulfstream G650 (в народе известный как G6). Казалось, что деньги были потрачены не зря: в 2013 году была опубликована статья, в которой говорилось, что у людей, которые придерживались средиземноморской диеты, дополненной оливковым маслом и орехами, риск развития сердечно-сосудистых заболеваний был ниже примерно на 30 %.

К сожалению, ученые в одном из исследовательских центров допустили очень серьезную ошибку. Они рандомизировали не людей, а клиники. Иными словами, вместо того чтобы разделить испытуемых на две группы (первую, которая придерживалась обычного питания, и вторую, которая следовала средиземноморской диете), они просто определили пациентов одной клиники в одну и ту же группу. Чтобы понять, почему это большая проблема, давайте предположим, что каждая больница обслуживает одну деревню. Предположим, что этот населенный пункт находится прямо наверху ядерного космического корабля и в активной зоне реактора этого судна произошла утечка радиоактивных отходов. Это привело к тому, что риск сердечного приступа у жителей деревни возрос на миллиард процентов. На кого ни посмотри – у всех инфаркт миокарда.

Теперь предположим, что в деревню приходят благожелательные исследователи и определяют всех ее жителей, склонных к сердечному приступу, в группу, которая должна следовать средиземноморской диете. Что произойдет? Риск инфаркта у этой группы взлетит до небес, и если не знать о ядерном космическом корабле, то можно подумать, будто средиземноморская диета стала причиной этому. Если бы исследователи определили всю деревню в контрольную группу (обычное питание), то риск сердечного приступа среди ее представителей стал бы значительно выше, чем у членов группы, которая придерживалась средиземноморской диеты. Это сделало бы эту систему питания чудодейственным лекарством.

Очевидно, под испанскими деревнями нет космических кораблей, по крайней мере, я об этом не знаю. Однако смысл в том, что люди, живущие рядом, могут подвергаться одинаковым воздействиям, которые улучшают или ухудшают их здоровье. Если не рандомизировать испытуемых, то можно искусственно завысить или занизить эффективность препарата, диеты или любого другого вмешательства, которое вы изучаете[119].

Ошибка в исследовании PREDIMED была обнаружена через пять лет после первой публикации результатов. «Медицинский журнал Новой Англии» (New England Journal of Medicine) отозвал статью, но позволил авторам повторно проанализировать данные (исключая нерандомизированную деревню) и снова опубликовать результаты исследования. Возможно, в этом нет ничего удивительного, но экспериментаторы пришли к тем же выводам. Данные не являются общедоступными, поэтому некоторые специалисты по эпидемиологии питания, с которыми я беседовал, относятся к результатам скептически. Верите вы этим выводам или нет, никто, даже авторы исследования, не спорит, что неправильная рандомизация жителей деревни была ошибкой.

Возможно, с моей стороны было идеалистично и наивно ожидать, что литература может быть полностью свободна от глупых математических и процедурных ошибок. Опять же, ученые – тоже люди, поэтому не стоит так удивляться. В любом случае вопрос не в том, есть ли ошибки в научной литературе, а в том, сколько их и насколько они серьезны.

К сожалению, ответить на этот вопрос сложно. В большинстве случаев о недочете можно узнать только в том случае, если другие ученые укажут на него, причем публично. Это неприятный опыт для всех, кто вовлечен в эту ситуацию. Указать на ошибку в научном журнале – все равно что вломиться на кухню ресторана с двумя звездами Мишлен[120] и попросить шеф-повара переделать sylphides à la crème d’écrevisses (французский крем-суп из раков) перед вами и всеми присутствующими, чтобы вы могли убедиться, что в блюде действительно нет глютена. Это неприятно для тебя и унизительно для шеф-повара и кончится плохо для обеих сторон.

 

Вопрос не в том, есть ли ошибки в научной литературе, а в том, сколько их и насколько они серьезны.

 

Однако у некоторых ученых, похоже, нет с этим проблем. Почти каждый раз, когда я, изучая литературу, натыкался на статью с указанием на ошибку в другой публикации, замечал, что одним из ее авторов является Дэвид Эллисон, исследователь ожирения. Я позвонил ему, чтобы спросить, сколько ошибок он встречает в научной литературе. Он ответил мне метафорично.

 

Если бы меня спросили, много ли трещин в тротуарах большинства городов, я бы ответил: «Ну, я никогда не проводил формальный анализ, но я часто выхожу на прогулки, и каждый раз, когда гуляю более десяти минут, замечаю хотя бы одну трещину. Поэтому мне кажется, что в тротуарах, вероятно, много трещин». То же самое я могу сказать о литературе. Каждый раз, отправляясь «гулять» в мир научных публикаций, я нахожу несколько статей, в которых есть четкие и однозначные ошибки.

 

Вот так.

Ладно, три выбоины обсудили, осталось четыре.

 

* * *

 

Четвертая яма на дороге к подлинным связям – это случайности. Чтобы объяснить это, давайте рассмотрим пример канадцев (эх!). Во-первых, удивительный факт: большинство жителей Онтарио находятся в гигантской базе данных с типичным для этой страны серьезным названием «База данных зарегистрированных лиц» (RPDB). Она содержит основную информацию (имя, дата рождения и т. д.) о более чем 10 миллионах жителей канадской провинции, но ее реальная мощь в том, что каждому человеку присуждается уникальный идентификационный номер. Всякий раз, когда житель Онтарио попадает в больницу, каждая процедура, которую ему проводят, фиксируется в другой базе данных с помощью иного идентификационного номера.

Эти данные не являются общедоступными, но исследователи могут запросить доступ к ее анонимной версии. Это может быть полезно, чтобы ответить на важные вопросы, например: возрастает ли частота обращений за медицинской помощью по мере старения? Однако она также может использоваться, чтобы получить менее важную информацию, например: действительно ли Близнецы более склонны к алкоголизму, или правда ли, что Дев сильнее тошнит во время беременности? Если вы внимательно посмотрите на эти вопросы, то увидите, что в них скрываются наши старые друзья – связи. Вопрос «Действительно ли Близнецы более склонны к алкоголизму?» равнозначен «Связано ли рождение под этим знаком с повышенным риском развития алкоголизма?» Если такие вопросы останутся без ответов, это будет преступлением против науки, поэтому в середине 2000-х годов коллектив исследователей решил на них ответить. Группа, возглавляемая Питером Остином, запросила доступ к базам данных и получила сравнения, которые выглядели так.

 

 

Перевод: если вы Близнецы и жили в Онтарио в 2000 году, то риск попасть в больницу из-за алкоголизма составлял 0,61 %. Если у вас другой знак зодиака, то риск был равен 0,47 %. Таким образом, у Близнецов вероятность попасть в больницу из-за алкоголизма была на 30 % выше (0,61/0,47=130), чем у других знаков зодиака[121]. Если говорить на языке ассоциаций, то Остин обнаружил связь между рождением под этим знаком и 130-процентным повышением риска оказаться в больнице из-за алкоголизма. Но подлинная ли это связь?

Давайте сверимся с нашим списком выбоин.

Предположим, что Остин и его коллеги не прибегали к обману и не сделали математических ошибок.

• Выбоин № 1 и № 2 удалось избежать.

Будем считать, что процедурных ошибок тоже допущено не было. Близнецы не были перепутаны с Девами, и врачи не ставили первым неправильный диагноз чаще или реже, чем другим знакам зодиака.

• Выбоины № 3 мы тоже избежали.

Итак, если статистика госпитализаций не была испорчена обманом, математическими или процедурными ошибками, то связь между Близнецами и алкоголизмом является подлинной, верно?

Возможно.

 

«Случайность может порождать вещи, которые выглядят реальными».

 

Есть еще кое-что, что могло стать причиной связи между Близнецами и алкоголизмом, – случайность. Но это не четкая и определенная причина. Представьте себе, что вы берете песочное печенье и крошите его в руке, позволяя нескольким кусочкам упасть на пол. Затем вы переходите на другое место и делаете все то же самое с другим печеньем. Затем еще раз. Вы можете повторить этот эксперимент миллион раз, но вы никогда не получите два одинаковых расположения крошек на полу. Хотя ваши руки и печенье подчиняются законам физики, оно никогда не крошится одинаково дважды. Случайность – это примерно то же самое, как крошится печенье.

Как отмечает психолог Брайан Нозек, «случайность может порождать вещи, которые выглядят реальными». Иными словами, иногда крошки выглядят просто божественно, и это относится к связи между знаками зодиака и алкоголизмом.

Возникает вопрос: как выяснить, что связь вызвана случайностью? Можно ли это определить?

Здесь все усложняется. Есть раздел математики (он зародился, когда Люцифер пал с небес на землю) под названием «индуктивная статистика». Она располагает множеством разных инструментов, но самым популярным из них является расчет, который позволяет получить Р-значение – это число от 0 до 1. Чтобы понять, что это значит, давайте использовать наших друзей Близнецов в качестве примера. Остин и его коллеги вычислили Р-значение для различий между ними и другими знаками и получили 0,015.

Что это значит? Вот точное определение:

 

Р-значение – это вероятность того, что если бы вы сравнили группу случайно отобранных Близнецов с группой случайно отобранных представителей иных знаков зодиака, то различия в риске госпитализаций из-за алкоголизма между ними была бы как минимум такой же, как рассчитал Остин (0,14 процентных пункта), при соблюдении трех условий: 1) во всем мире действительно нет разницы в показателях риска госпитализаций из-за алкоголизма между Близнецами и другими знаками, 2) все предположения, сделанные при построении статистико-математических моделей Остина были правдивы, и 3) ни один этап исследования не был скомпрометирован обманом; математическими, статистическими и иными ошибками; другими выбоинами, о которых мы еще не говорили; а также крючкотворством, дурачествами, вздором, чепухой и бредом.

 

Это определение просто ужасно, поэтому большинство ученых, журналистов, политиков и других людей, кроме специалистов по статистике, просто проигнорировали его и притворились, что на самом деле определение звучит так:

Р-значение – это вероятность того, что связь между Близнецами и алкоголизмом объясняется случайностью.

Руководствуясь вторым (ненастоящим) определением, вы можете посмотреть на Р-значение 0,015 и прийти к выводу, что:

1) существует всего 1,5-процентная вероятность, что связь между Близнецами и алкоголизмом случайная;

2) следовательно, вероятность того, что связь не вызвана случайностью, составляет 100 – 1,5 = 98,5 %;

3) таким образом, вероятность подлинности связи равна 98,5 %.

На протяжении долгого времени многие ученые рассуждали именно так. Они пришли к единому мнению, что если Р-значение ниже 0,05 (5 %), то связь может быть признана «статистически значимой» и подлинной. Если Р-значение – ох! – выше 0,05, то результат считается «статистически незначимым» и неподлинным. Эта разница не просто академическая: если бы вы были профессиональным ученым, то ваша работа заключалась бы в публикации статистически значимых исследований. Если бы вам это удавалось, то вы могли бы оставаться в профессии, а если нет, то пришлось бы открыть пекарню.

К сожалению, применение Р-значения для выяснения подлинности связи более неправильно, чем добавлять бри в борщ.

Если вы посмотрите на точное определение этого показателя, то заметите, что второй и третий пункты могут быть нарушены по практически любой причине. Полученное Остином Р-значение 0,015 могло быть связано со множеством факторов: антиканадские хакеры злонамеренно меняют цифры в базах данных; ученый разделил некоторые числа, вместо того чтобы умножить их; врачи чаще диагностировали алкоголизм среди Близнецов и т. д.

Вероятно, самое простое определение Р-значения – это «мера удивления», как говорит Регина Нуццо.

Представьте себе следующую картину: Рождество, 02:00, и вы просыпаетесь от шума в гостиной. «Господи, – думаете вы, – ЭТО ЖЕ САНТА!»

Или?

Конечно, это может быть он. Нет закона физики, исключающего его существование. Однако это также может быть ваш ребенок, который тайком спустился на первый этаж, чтобы подкараулить седобородого старичка. Или это может быть ваш 36-летний брат, пожирающий печенье, приготовленное для Санты. Или книга упала с полки. Или вор вломился. Низкое Р-значение похоже на странный звук в ночи: оно указывает на то, что происходит нечто неожиданное, но не говорит, что именно. Даже если звук достаточно громкий, чтобы вы были на 99 % уверены в том, что внизу что-то произошло, вы не можете быть на 99 % убеждены, что сам Санта пробрался к вам через камин.

Давайте подведем итоги. Случайность – это четвертая выбоина на пути к подлинной связи, и с ней связано много сложностей. В отличие от первых трех она не является исключительно нашей виной. Так работает Вселенная: иногда крошки от печенья образуют нечто похожее на связь, хотя на самом деле это лишь случайность. В отличие от других колдобин в нашем списке, случайности нельзя устранить: мы можем лишь попытаться их понять. К сожалению, мы десятилетиями неправильно воспринимали Р-значения, и, хотя оно само по себе не является выбоиной, этот показатель способствует созданию самой большой выбоины из всех, что мы пока видели. Давайте вернемся к Близнецам-алкоголикам.

 

* * *

 

Я кое-что от вас скрывал. Питер Остин и его коллеги не только выяснили, что Близнецы чаще попадают в больницу из-за алкоголизма. Они также обнаружили множество связей между знаками зодиака и заболеваниями. По сути, они создали научный гороскоп.

 

Ваш научный гороскоп

 

 

В общей сложности они отобрали 72 диагноза вроде тех, что перечислены выше. Каждый знак зодиака был связан со статистически более высокой вероятностью госпитализации в связи с определенными заболеваниями, чем все остальные вместе взятые. Все Р-значения для связей были менее 0,05, то есть статистически значимыми.

Таким образом, Остин и его коллеги пришли к выводу, что все 72 связи, которые они обнаружили, являются подлинными.

Хочу сказать другим Скорпионам: астрология реальна – наслаждайтесь анальными абсцессами!

Я.

ШУЧУ.

 

Так работает Вселенная: иногда крошки от печенья образуют нечто похожее на связь, хотя на самом деле это лишь случайность.

 

Я говорил об этом так, будто это реальная наука. На первый взгляд это действительно так. Остин и его коллеги действительно сделали все, о чем было заявлено: изучили огромные базы данных, провели расчеты и выявили все вышеприведенные связи (и многие другие). В этом смысле все реально. Однако Питер не астролог, не шаман и не врач. Он статистик. Его эксперимент продемонстрировал, как слепое следование неправильным ментальным представлениям может привести к появлению… множества Сант.

Короче говоря, этот эксперимент был манекеном для статистического краш-теста, предназначенного для того, чтобы показать опасности выбоины № 5: Р-хакинга, то есть игры с данными, которая продолжается до тех пор, пока вы не «найдете» то, что искали.

Давайте повторим краш-тест в замедленном режиме. В данном случае было допущено две критические ошибки.

Во-первых, Остин решил, что если Р-значение ниже 0,05, то связь является подлинной. Это совершенно неправильно.

На самом деле не существует показателя, который гарантировал бы подлинность связи. Р-значение – это ключ, но далеко не самый важный, и он определенно не является Великим открывателем фундаментальных истин. Это лишь звук в ночи, а не неопровержимое доказательство существования Санты.

Во-вторых, Остин и его коллеги забросили свою экспериментальную сеть слишком далеко. Вместо того чтобы сформулировать единственную специфическую гипотезу об одном знаке зодиака или диагнозе, они создали, а затем проверили 14 718! Для этого потребовались гигантская база данных и коды, которые позволили сделать тысячи сравнений. Они задавали очень похожие вопросы снова и снова.

Выше ли у

риск госпитализации в связи с туберкулезом?

А с сифилисом?

А с подагрой?

А с аппендицитом?

А с… и так далее.

 

Выше ли у

риск госпитализации в связи с туберкулезом?

А с сифилисом?

А с подагрой?

А с аппендицитом?

А с… и так далее.

 

Каждый из этих вопросов является основой для отдельного эксперимента. Выходит, что Остин провел не одно испытание, а более 14 тысяч[122].

Что в этом плохого? То, что сделали Остин с коллегами – забросили экспериментальную сеть слишком далеко, а затем выбрали результаты, которые показались им самыми значимыми, – можно сравнить с тем, чтобы родить пятерых детей, а затем ждать 30 лет, чтобы посмотреть, кто из них станет самым успешным (Р-значение < 0,05), отречься от остальных (Р-значение > 0,05) и объявить себя лучшим родителем в истории (опубликовав только те результаты, где Р-значение < 0,05). Остин мог взять гигантскую базу данных, провести более 14 тысяч экспериментов, «обнаружить», что Близнецы на 30 % чаще попадают в больницу из-за алкоголизма, чем представители других знаков зодиака, и опубликовать только этот результат.

Чем больше у вас детей, тем выше вероятность, что как минимум один из них станет успешным, независимо от того, насколько вы хороший родитель. Аналогичным образом, чем больше гипотез вы проверяете, тем выше вероятность, что хотя бы одна из них случайно окажется статистически значимой.

То, о чем мы только что говорили, – это самая примитивная форма Р-хакинга: проверить тысячи гипотез и опубликовать только те, где показатель < 0,05. Есть гораздо более деликатные способы сделать это. Даже профессиональные ученые могут не увидеть в этих способах манипуляций данными. Давайте проведем быстрый мысленный эксперимент. Представьте, что вместо 14 тысяч исследований Остин проводит всего одно: у него есть теория, что Скорпионы чаще бывают алкоголиками, и, чтобы ее доказать или опровергнуть, он просматривает базу данных. Он обнаруживает, что у этого знака риск стать алкоголиками повышен на 37 %! Увы, Р-значение составляет 0,76, гораздо больше 0,05, и, следовательно, результат не является статистически значимым. Стоит ли ему опустить руки и заняться чем-нибудь другим?

Нет.

Остин ученый и всю жизни превращал лимоны в лимонад, не боясь неудач. Он не собирается сдаваться.

Вместо этого он может сказать себе: «Это данные только за 2000 год. Возможно, если объединить информацию за 1999 и 2000 годы, я что-нибудь найду».

И он находит. Результат? Р-значение 0,43.

Окей, все уже движется в правильном направлении. Теперь он использует данные только за 1999 год.

Р-значение 0,12.

Ох, уже совсем близко!

Затем ему в голову приходит мысль: дети не могут быть алкоголиками (по крайней мере, он на это надеется). Он пробует снова, на этот раз используя только данные о людях старше 18 лет.

Р-значение = 0,071.

Почти получилось!

Теперь ему кажется, что учитывать 18-летних неправильно. Возможно, влияние Меркурия становится особенно сильным после 30 лет, поэтому он пробует еще раз, используя данные только о тех, кому от 30 до 40 лет.

Р-значение = 0,98.

Блин!

Теперь ему в голову приходит другая мысль. Вероятно, алкогольная зависимость редко встречается у студентов, поэтому он использует данные только о людях старше 22.

Р-значение = 0,043.

Джекпот! Можно публиковаться!

То, что сделал Остин в нашем мысленном эксперименте, является менее явной формой Р-хакинга. Вместо того чтобы проводить тысячи исследований, он провел одно, а затем подправлял его до тех пор, пока не получил то, что искал. В данном примере он манипулировал только парой переменных: возрастом людей и годом госпитализации. Однако также можно добавить больше людей из разных городов, разделить данные по полу, подправить детали алгоритма, который использовался для определения связей, или провести сотни других манипуляций с данными.

Что делает Р-хакинг таким коварным, так это то, что он очень… приятен. Вы настойчиво копаетесь в информации, пока не найдете ИСТИНУ. Как сказали три психолога в недавно вышедшей статье, «Р-хакинг – это не то, чем занимаются злобные ученые, маниакально смеясь. Это то, что делают доброжелательные исследователи, пытаясь понять иначе несовершенные результаты».

Некоторые скажут, что это больше, чем просто попытка понять результаты. Многие исследователи, с которыми я говорил, возложили часть вины на сильное давление, связанное с публикацией только статистически значимых результатов. Регина Нуццо сформулировала это лучше всех:

 

Система вознаграждений устроена таким образом, что вам приходится добиваться статистической значимости. Это как достичь оргазма. Похоже, правда? Вам приходится продолжать действовать, пока не достигнете кульминации.

 

«Но, – добавляет она, – так не должно быть ни в сексе, ни в науке. Значение имеет сам процесс».

 

* * *

 

Итак, давайте еще раз назовем все выбоины на дороге к подлинной связи.

 

Выбоина № 1: обман


Поделиться с друзьями:

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Типы сооружений для обработки осадков: Септиками называются сооружения, в которых одновременно происходят осветление сточной жидкости...

Автоматическое растормаживание колес: Тормозные устройства колес предназначены для уменьше­ния длины пробега и улучшения маневрирования ВС при...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.081 с.