Один из причин Некоторые научные исследования могут быть ошибочными

Eсть кризис реплицируемости в науке - неопознанные «ложные срабатывания» проникая даже в наши лучшие исследовательские журналы.

Фальсифицированным является утверждение о том, что эффект существует, когда на самом деле это не так. Никто не знает, какая доля опубликованных работ содержит такие неправильные или завышенные результаты, но есть признаки того, что доля невелика.

Эпидемиолог Джон Иоаннидис дал лучшее объяснение этому феномену в знаменитой статье 2005, вызывающе названной "Почему большинство опубликованных результатов исследования ложны». Одной из причин, по которым Иоаннидис дал так много ложных результатов, стал называться "p хакерство ", которое возникает у исследователей, испытывающих давление, для достижения статистической значимости.

Что такое статистическая значимость?

Чтобы сделать выводы из данных, исследователи обычно полагаются на тестирование значимости, Проще говоря, это означает вычисление "p значение ", что является вероятностью таких результатов, как наша, если на самом деле нет эффекта. Если p значение достаточно мало, результат объявляется статистически значимым.

Традиционно p значение меньше .05 является критерием значимости. Если вы сообщите p<05, читатели могут поверить, что вы обнаружили реальный эффект. Возможно, однако, на самом деле эффекта нет, и вы сообщили о ложном срабатывании.


графика подписки внутри себя


Многие журналы будут публиковать исследования, которые могут сообщать о одном или нескольких статистически значимых эффектах. Выпускники быстро узнают, что достижение мифических p

Это давление для достижения pвзломать.

Приманка p взлом

Проиллюстрировать p хакинг, вот гипотетический пример.

Брюс недавно закончил аспирантуру и получил престижный грант, чтобы присоединиться к одной из ведущих исследовательских групп в своей области. Его первый эксперимент не работает хорошо, но Брюс быстро уточняет процедуры и проводит второе исследование. Это выглядит более многообещающим, но все равно не дает p значение меньше .05.

Убедившись, что он на что-то, Брюс собирает больше данных. Он решает отбросить несколько результатов, которые явно выглядели.

Затем он замечает, что одна из его мер дает более четкую картину, поэтому он фокусируется на этом. Еще несколько настроек, и Брюс наконец идентифицирует немного удивительный, но действительно интересный эффект, который достигает p

Брюс так старался найти эффект, который он знал где-то скрывался. Он также ощущал давление p

Существует только один улов: на самом деле эффекта не было. Несмотря на статистически значимый результат, Брюс опубликовал ложный результат.

Брюс почувствовал, что использует свое научное понимание, чтобы показать скрытый эффект, когда он предпринял различные шаги после начала учебы:

  • Он собрал дополнительные данные.
  • Он сбросил некоторые данные, которые казались аберрантными.
  • Он отказался от некоторых своих мер и сосредоточился на наиболее перспективных.
  • Он немного проанализировал данные и сделал несколько дополнительных настроек.

Беда в том, что все эти выборы были сделаны после видя данные. Брюс может, бессознательно, быть вишневым - подбирать и настраивать, пока не получит неуловимый pp

У статистиков есть поговорка: если вы будете мучить данные достаточно, они признаются. Выбор и настройки, сделанные после просмотра данных, являются сомнительными методами исследований. Используя их, намеренно или нет, для достижения правильного статистического результата p взлом, что является одной важной причиной опубликования, статистически значимые результаты могут быть ложными срабатываниями.

Какая доля опубликованных результатов неверна?

Это хороший вопрос и хитроумный хитрый. Никто не знает ответа, который, вероятно, будет отличаться в разных областях исследований.

В 2015 было опубликовано большое и впечатляющее усилие ответить на вопрос о социальной и когнитивной психологии. Под руководством Брайана Носека и его коллег в Центре открытых наук Проект реплицируемости: психология (RP: P) исследовательские группы 100 по всему миру проводят тщательную репликацию одного из опубликованных 100 результатов. В общем и целом, примерно 40 реплицируется достаточно хорошо, тогда как в 60 случаях исследования репликации получили меньшие или значительно меньшие эффекты.

В исследованиях репликации 100 RP: P сообщалось о последствиях, которые в среднем составляли лишь половину размера эффектов, о которых сообщалось в оригинальных исследованиях. Тщательно проведенные повторы, вероятно, дают более точные оценки, чем возможно p взломали оригинальные исследования, поэтому мы можем заключить, что оригинальные исследования переоценили истинные эффекты, в среднем, в два раза. Это тревожно!

Как избежать p взлом

Лучший способ избежать p взлом заключается в том, чтобы избежать выбора или хитрости после просмотра данных. Другими словами, избегайте сомнительных методов исследования. В большинстве случаев лучший способ сделать это - использовать Предварительная регистрация.

Предварительная регистрация требует, чтобы вы заранее подготовили подробный план исследований, включая статистический анализ, который должен применяться к данным. Затем вы предварительно зарегистрируете план, с отметкой даты, на Open Science Framework или какой-либо другой онлайн-реестр.

Затем провести исследование, проанализировать данные в соответствии с планом и сообщить результаты, какими бы они ни были. Читатели могут проверить предварительно зарегистрированный план и, таким образом, быть уверены, что анализ был указан заранее, а не p взломан. Предварительная регистрация является сложной новой идеей для многих исследователей, но, вероятно, будет способом будущего.

Оценка, а не p ценности

Искушение p взлом - один из больших недостатков, p значения. Другое дело, что pскорее, как сказать, что эффект существует, или нет.

Но мир не черный и белый. Чтобы распознать многочисленные оттенки серого, гораздо лучше использовать Индивидуальный расчет , а не p значения. Целью оценки является оценка размера эффекта, который может быть небольшим или большим, нулевым или даже отрицательным. С точки зрения оценки ложноположительный результат - это оценка, которая больше или намного больше истинного значения эффекта.

Давайте рассмотрим гипотетическое исследование влияния терапии. Исследование могло бы, например, оценить, что терапия дает, в среднем, снижение ХСУ-Х-Х в тревоге. Предположим, что по нашим данным доверительный интервал - диапазон неопределенности с обеих сторон нашей лучшей оценки - [4, 10]. Это говорит о том, что наша оценка 7, скорее всего, находится в пределах приблизительно 3 баллов по шкале тревоги реального эффекта - истинного среднего значения пользы от терапии.

Другими словами, доверительный интервал указывает, насколько точна наша оценка. Зная такую ​​оценку и ее доверительный интервал, гораздо более информативен, чем любой p значения.

Я рассматриваю оценку как одну из «новых статистических данных». Методы сами по себе не новы, но использование их в качестве основного способа сделать выводы из данных для многих исследователей было бы новым и большим шагом вперед. Это также поможет избежать искажений, вызванных p взлом.

Об авторе

Джефф Камминг, заслуженный профессор, La Trobe University

Эта статья изначально была опубликована в Беседа, Прочтите оригинал статьи.

Похожие книги:

at Внутренний рынок самовыражения и Amazon