Выяснение путаница между корреляцией и причинно- 

Вот исторический лакомый кусочек, о котором вы, возможно, и не подозреваете. Между годами 1860 и 1940, по мере того, как число методистских министров, живущих в Новой Англии, увеличилось, так же, как и объем кубинского рома, импортированного в Бостон, - и оба они увеличились чрезвычайно похожим образом. Таким образом, методисты-министры, должно быть, купили много рома в этот период!

На самом деле нет, это глупый вывод. Что действительно происходит, так это то, что оба количества - методистские министры и кубинский ром - были вызваны другими факторами, такими как рост населения.

Достигнув этого неправильного вывода, мы сделали слишком распространенную ошибку запутанным корреляцию с причинно-следственной связи.

Какая разница?

Говорят, что две величины коррелирует  если оба увеличиваются и уменьшаются вместе («положительно коррелированы»), или если один увеличивается, когда другой уменьшается, и наоборот («отрицательно коррелирует»).

Корреляция легко обнаруживается с помощью статистических измерений Коэффициент корреляции Пирсона, который показывает, насколько плотно заперты две эти величины: от -1 (отлично отрицательно коррелировано) через 0 (совсем не коррелированный) и до 1 (совершенно положительно коррелированный).


графика подписки внутри себя


 causation1tylervigen.com

Но только потому, что две величины коррелированы, не обязательно означает, что одно прямо Причинение другой - для изменения. Корреляция не предполагает причинности, точно так же, как облачная погода не означает осадков, хотя обратное верно.

Если две величины коррелированы, то вполне может быть подлинная причинно-следственная связь (например, уровни осадков и продажи зонтиков), но, возможно, другие переменные управляют обоими (такими как числа пиратов и глобальное потепление), или, возможно, это просто совпадение (например, Потребление сыра в США и удушение по простыням).

Даже там, где причинно-следственная связь присутствует, мы должны быть осторожны, чтобы не перепутать причину с эффектом, или же мы можем сделать вывод, что, например, более широкое использование нагревателей вызывает похолодание.

Для того, чтобы установить причинно-следственные, мы должны выйти за рамки статистики и искать отдельного доказательства (научного или исторического характера) и логических рассуждений. Корреляция может побудить нас пойти искать такие доказательства в первую очередь, но не в коем случае не доказательство в своем собственном праве.

Тонкие проблемы

Хотя приведенные выше примеры были явно глупы, корреляция очень часто ошибочно принимают за причинно-следственной связи в способами, которые не сразу очевидны в реальном мире. При чтении и интерпретации статистических данных, необходимо проявлять большую осторожность, чтобы понять, какие именно данные и его статистика подразумеваете - и что еще более важно то, что они не подразумевая.

 causation2

Одним из последних примеров о необходимости осторожности при интерпретации данных волнении в начале этого года, окружающий очевидной новаторским обнаружение гравитационных волн - объявление, которое, как представляется, было сделано преждевременно, прежде чем будут учтены все переменные, влияющие на данные.

К сожалению, анализ статистики, вероятности и риски не набор навыков проводной в нашей человеческая интуиция, и поэтому слишком легко быть сбитым с пути. Целые книги были написаны на тонких способах, с помощью которых статистика может быть неверно истолкована (или использована для введения в заблуждение). Чтобы помочь сохранить вашу охрану, вот несколько распространенных статистических проблем, которые вы должны знать:

1) Эффект здорового рабочего, где иногда две группы нельзя сравнивать напрямую на равных условиях.

Рассмотрим гипотетическое исследование, сравнивающее здоровье группы служащих со здоровьем группы космонавтов. Если в исследовании не обнаружено существенной разницы между двумя факторами - нет взаимосвязи между здоровьем и рабочей средой, заключаем ли мы, что жизнь и работа в космосе не имеют долгосрочных рисков для здоровья космонавтов?

Нет! Группы не находятся на одном уровне: кандидаты в космонавты, чтобы найти здоровых кандидатов, которые затем поддерживают полный фитнес-режим, чтобы упреждающе бороться с последствиями жизни в «микрогравитации».

Поэтому мы ожидаем, что они будут значительно полезнее, чем служащие, в среднем, и они должны быть справедливо обеспокоены, если они не будут.

2) Категоризация и эффект миграции на этапе - перетасовка людей между группами может иметь драматические последствия для статистических результатов.

Это также известно как Уилл Роджерс после американского комика, который, как сообщается, заметил:

Когда Okies покинул Оклахома и переехал в Калифорнию, они подняли средний уровень интеллекта в обоих государствах.

Чтобы проиллюстрировать, представьте, что вы разделите большую группу друзей на «короткую» группу и «высокую» группу (возможно, чтобы упорядочить их для фотографии). Сделав это, удивительно легко повысить среднюю высоту обеих групп одновременно.

Просто попросите кратчайшего человека в «высокой» группе переключиться на «короткую» группу. «Высокая» группа теряет свой самый короткий член, тем самым подбирая их среднюю высоту, но «короткая» группа еще больше набирает свой самый высокий член, а также выигрывает в среднем росте.

Это имеет серьезные последствия для медицинских исследований, когда пациенты часто сортируются в «здоровые» или «нездоровые» группы в ходе тестирования нового лечения. Если диагностические методы улучшатся, некоторые очень слабо-нездоровые пациенты могут быть переклассифицированы, что приведет к улучшению результатов лечения обеих групп независимо от того, насколько эффективно (или нет) лечение.

 causation3Выбор и выбор среди данных может привести к неправильным выводам. Скептики видят период охлаждения (синий), когда данные действительно показывают долговременное потепление (зеленый). skepticalscience.com 

добыча 3) данных - когда обилие данных присутствует, биты и куски могут быть вишней для поддержки любого желаемого вывода.

Это плохая статистическая практика, но если сделано намеренно может быть трудно определить без знания исходного, полного набора данных.

Рассмотрим приведенный выше график, показывающий, например, две интерпретации данных глобального потепления. Или фторид - в небольших количествах это одно из самых эффективных профилактических лекарств в истории, но положительный эффект полностью исчезает, если только когда-либо рассматривать токсичные количества фторида.

По аналогичным причинам важно, чтобы процедуры для данного статистического эксперимента фиксировались на месте до начала эксперимента, а затем оставались неизменными до окончания эксперимента.

4) Кластеризация - что можно ожидать даже в абсолютно случайных данных.

Рассмотрите медицинское исследование, изучающее, как конкретное заболевание, такое как рак или рассеянный склероз, географически распределенный, Если болезнь ударяется наугад (и окружающая среда не имеет эффекта), мы, конечно, ожидаем увидеть многочисленные скопления пациентов. Если бы пациенты были распределены совершенно равномерно, распределение было бы самым неслучайным!

Таким образом, наличие отдельного кластера или нескольких небольших кластеров случаев вполне нормально. Сложные статистические методы необходимы для определения того, сколько кластеризации требуется для вывода того, что что-то в этой области может вызвать болезнь.

К сожалению, любой кластер вообще - даже незначительный - делает для легкого (и на первый взгляд, убедительного) заголовка новостей.

 causation4

Статистический анализ, как и любой другой мощный инструмент, должен использоваться очень осторожно - и в частности, всегда нужно быть осторожным при составлении выводов, основанных на факте корреляции двух величин.

Вместо этого мы всегда должны настаивать на отдельных доказательствах, чтобы спорить о причинах и следствиях, и что доказательства не будут представлены в виде единого статистического числа.

По-видимому, убедительные корреляции, скажем, между данными генами и шизофрения или между высоким содержанием жиров и болезни сердца, могут оказаться основаны на очень сомнительной методологии.

Мы, возможно, как вид, когнитивно плохо подготовленный к решению этих проблем. Как канадский педагог Киран Иган поместить его в свою книгу Как это неправильно с самого начала:

Плохая новость заключается в том, что наша эволюция дала нам возможность жить в маленьких, стабильных обществах охотников и собирателей. Мы плейстоценовые люди, но наши истощенные мозги создали для нас массовые, многокультурные, технологически сложные и быстро меняющиеся общества.

В результате мы должны постоянно сопротивляться соблазну увидеть случайность и путать корреляцию и причину.Беседа

Эта статья изначально была опубликована в Беседа
Читать оригинал статьи.


Об авторах

borwein ИонафанДжонатан Борвейн (Jon) - лауреат-профессор математики в Университете Ньюкасла. Он является лауреатом профессора математики в Университете Ньюкасла и директором Центра компьютерной математики и прикладных исследований (CARMA). Он работал в Carnegie-Melon, Dalhousie, Simon Fraser и университетах Ватерлоо и провел два исследовательских кафедры Канады в области вычислительной техники.

роза майклМайкл Роуз - кандидат PhD, Школа математических и физических наук в Университете Ньюкасла. Магистратура PhD студент под руководством лауреата профессора Джона Борвеина в Университете Ньюкасла, Австралия. В настоящее время помогает исследовать применение фрактальной математики для моделирования распределения мозгового синапса.

Раскрытие информации Заявление: Авторы не работают, не консультируются, не владеют акциями или не получают финансирование от какой-либо компании или организации, которые выиграют от этой статьи. У них также нет соответствующей принадлежности.


Рекомендуемые книги:

Деньги, секс, война, Карма: Заметки для буддийской революции
Дэвид Р. Лой.

Деньги, секс, война, Карма: Заметки для буддийской революции Дэвид Р. Лой.Дэвид Лой стал одним из самых влиятельных сторонников буддийского мировоззрения, объясняя, как никто другой, его способность трансформировать социально-политический ландшафт современного мира. В Деньги, секс, война, карма, он предлагает резкие и даже потрясающе ясные представления о неправильно истолкованных буддийских продуктах - работе кармы, природе себя, причинах неприятностей как на индивидуальном, так и на социальном уровнях - и реальных причинах нашего коллективного чувства «никогда не бывает достаточно» , «будь то время, деньги, пол, безопасность ... даже война. «Буддийская революция» Дэвида - это не что иное, как радикальное изменение способов, которыми мы можем приблизиться к нашей жизни, нашей планете, коллективным заблуждениям, которые пронизывают наш язык, культуру и даже нашу духовность.

Нажмите здесь для получения дополнительной информации и / или заказать эту книгу на Amazon.