Выбоина № 5: манипуляция статистикой, включая Р-хакинг — КиберПедия 

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Выбоина № 5: манипуляция статистикой, включая Р-хакинг

2021-10-05 19
Выбоина № 5: манипуляция статистикой, включая Р-хакинг 0.00 из 5.00 0 оценок
Заказать работу

В ходе крупных проспективных когортных исследований ученые обычно измеряют сотни переменных (рост, вес, группа крови, уровень образования, количество рыбы, съедаемой в сутки, число пакетов Cheetos, потребляемых за день, и так до бесконечности). И во время анализа данных они принимают сотни решений (кого включить, исключить, как долго наблюдать за участниками, какую математическую модель использовать и т. д.). Иными словами, у ученых есть множество вариантов, как организовать эксперимент, и это значит, что Р-хакинг, осознанный или нет, становится гораздо проще. К сожалению, практически невозможно прочитать статью и определить, имела ли место манипуляция данными, если, конечно, профессор не напишет в своем блоге длинный пост, где случайно признается, что заставил студентку прибегнуть к ней. (Да, такое на самом деле было. Загуглите «Брайан Вансинк».)

Двигаемся дальше.

Изучая результаты крупного проспективного когортного исследования, представьте себе следующий сценарий: вы пришли к соседям на барбекю по случаю Дня независимости[123]. Вокруг бургеры, собаки и семьи с детьми-подростками. Хозяева знакомят вас с их дочерью, которая учится на одни пятерки и сейчас проходит летнюю стажировку в крупной компании. Вы думаете: «Ого! Они, должно быть, прекрасные родители!» Но вот в чем проблема: нет никакой гарантии, что все их дети добились успеха. Возможно, у этой девочки есть брат, который, устав от ежегодных вечеринок в честь Дня независимости, сидит в своей комнате, дышит краской и отправляет учителям непристойные фотографии. Иными словами, вы можете видеть только определенный набор переменных и анализ, который привел к «успешной» связи.

Я упомянул метафору о ребенке, нюхающем краску, в разговоре с Брайаном Нозеком, и он очень удивился. К счастью, вместо того чтобы просто повесить трубку, он предложил не менее иллюстративный, но куда менее странный показатель: «Если вы можете сказать заранее: „Вот это я собираюсь сделать. Такой результат я, скорее всего, получу. Это, как мне кажется, произойдет”, тогда я буду впечатлен. Постфактум все кажется уже не таким эффектным».

Давайте рассмотрим конкретный пример.

В исследовании NutriNet-Santé изучалась связь между потреблением ультраобработанных пищевых продуктов и шестью видами рака: простаты, толстой кишки, молочной железы до и после менопаузы и любого другого онкологического заболевания.

Серьезно?

Существует более 100 разных видов рака.

Есть ли связь между потреблением ультраобработанных пищевых продуктов и злокачественной опухолью желудка? Предположим, что авторы проверили эту гипотезу и получили Р-значение 0,35.

А что насчет рака пищевода? Р-значение 0,78.

Рак мозга? Р-значение 0,09.

Рак молочной железы после менопаузы? Р-значение 0,02.

Бинго!

Видите, куда меня это привело? «Вид рака» – это лишь одна переменная. Есть сотни других, как явных, так и скрытых, с которыми исследователи могли бы «поиграть». На самом деле нет ничего ужасного в том, чтобы свести 100 видов онкологических заболеваний к шести или выбрать любую другую переменную. Каждый ученый должен решать, что исследовать. Однако я полагаю, что вы, как читатели, имеете право на гарантию того, что переменные были выбраны до проведения анализа данных, или хотя бы получить предупреждение об обратном.

У ученых эта гарантия называется предварительной регистрацией исследования.

Так вы сообщаете миру, какие именно переменные собираетесь тестировать и как будете анализировать данные, прежде чем зарегистрировать первого участника эксперимента. Если вы просмотрите базу данных предварительной регистрации исследований NIH, то найдете там SUN и NutriNet-Santé.

Ну что, можно поставить галочку?

Нет.

Они оба были «предварительно» зарегистрированы спустя много лет после их начала. Это так работать не должно. Справедливости ради следует отметить, что в начале проведения этих исследований предварительная регистрация не играла большой роли, но она обрела значимость задолго до того, как были опубликованы статьи об ультраобработанных пищевых продуктах. Таким образом, в идеале авторы должны были предварительно зарегистрировать свой план анализа информации, заявив: «Мы хотим проанализировать набор данных, чтобы увидеть, связано ли потребление ультраобработанных пищевых продуктов с лишним весом и ожирением (в случае SUN) или шестью видами рака (NutriNet-Santé), и вот как именно мы собираемся получать результаты». Насколько мне известно, это сделано не было. На самом деле в материалах для предварительной регистрации обоих испытаний ультраобработанная пища вообще не упоминается.

Так что мы в итоге получаем?

Из всех выбоин на дороге к подлинной связи базовые арифметические и процедурные ошибки являются самыми забавными, потому что они не подвергаются никаким сомнениям. По этой причине оплошность в PREDIMED попала в заголовки новостей по всему миру. Однако больше всего меня беспокоит (и заставляет подвергнуть сомнениям страшные цифры из первой главы) Р-хакинг, потому что, ознакомившись с исследованием, нельзя сказать наверняка, что вы видите перед собой: подлинную связь или результат творческой манипуляции.

Время притормозить. Мы бежим впереди паровоза. Есть и другие выбоины, о которых мы пока не говорили.

 


Поделиться с друзьями:

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

Архитектура электронного правительства: Единая архитектура – это методологический подход при создании системы управления государства, который строится...

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.007 с.