Как действительно работает модель таргетинга Cambridge Analytica в FacebookКак точно вы можете быть профилированы онлайн? Андрей Красовицкий / Shutterstock.com

Исследователь, чья работа находится в центре Анализ данных Facebook-Cambridge Analytica и политическая реклама показал, что его метод работал так же, как тот Netflix использует, чтобы рекомендовать фильмы.

В электронном письме мне, ученый Кембриджского университета Александр Коган объяснил, как его статистическая модель обрабатывала данные Facebook для Cambridge Analytica. Точность, которую он утверждает, предполагает, что она работает так же хорошо, как и установленные методы избирательного таргетинга основанных на демографии, таких как раса, возраст и пол.

Если это подтвердится, счет Когана будет означать, что цифровое моделирование Cambridge Analytica было вряд ли виртуальный хрустальный шар некоторые заявили, Тем не менее, цифры Когана также показывают что есть - и нет - фактически возможно by объединение персональных данных с машинным обучением для политических целей.

Тем не менее, в связи с одним из основных общественных проблем Коган указывает, что информация о личности пользователей или "психографические«Была просто скромной частью того, как модель ориентирована на граждан. Это была не личность, строго говоря, а скорее та, которая сводила демографические данные, социальные влияния, личность и все остальное в большой коррелированный кусок. По-видимому, этот подход «все-в-корреляции» и «вызов-он-личность» создал ценный инструмент кампании, даже если продаваемый продукт был не совсем таким, каким он был выставлен счет.


графика подписки внутри себя


Обещание индивидуального таргетинга

Вслед за откровениями, которые использовали консультанты кампании Trump Cambridge Analytica данные от пользователей 50 миллионов Facebook нацелиться на цифровую политическую рекламу во время президентских выборов 2016 в США, Facebook потеряли миллиарды в стоимости акций, правительства обе стороны Атлантики иметь открытые расследования, и зарождающийся социальное движение призывает пользователей #DeleteFacebook.

Но ключевой вопрос остался без ответа: действительно ли Cambridge Analytica способна эффективно ориентировать сообщения кампании на граждан по их личностным характеристикам - или даже их "внутренние демоны, "Как утверждал истец компании?

Если бы кто-нибудь знал, что сделал Cambridge Analytica с его массивной информацией о Facebook, это были бы Александр Коган и Джозеф Канцлер. это было их запуск Глобальные научные исследования которые собирали информацию о профиле из Пользователи 270,000 Facebook и десятки миллионов своих друзей используя приложение для проверки личности под названием «thisisyourdigitallife».

Часть мои собственные исследования фокусируется на понимании обучение с помощью машины методов и моя будущая книга обсуждает, как цифровые фирмы используют модели рекомендаций для создания аудитории. У меня была догадка о том, как работала модель Когана и канцлера.

Поэтому я отправил по электронной почте Когану запрос. Коган все еще исследователь в Кембриджском университете; его сотрудник Канцлер теперь работает в Facebook, В замечательном проявлении академической любезности Коган ответил.

Его ответ требует некоторой распаковки и некоторого фона.

От премии Netflix до «психометрии»

Назад в 2006, когда она по-прежнему была компанией по почте, Netflix предложила вознаграждение в размере $ 1 миллионов любому, кто разработал лучший способ сделать прогнозы о рейтингах пользователей, чем компания уже имела. Главным конкурентом независимый разработчик программного обеспечения с использованием псевдонима Саймон Фанк, базовый подход которого был в конечном счете включен во все записи лучших команд. Фанк адаптировал метод под названием "разложение по единичным значениям, "Снижение рейтинга пользователей фильмов в ряд факторов или компонентов - по существу набор предполагаемых категорий, оцененных по важности. Как Funk объяснено в сообщении в блоге,

«Так, например, категория может представлять собой боевики, фильмы с большим количеством действий в верхней части экрана и медленные фильмы внизу, и соответственно пользователи, которым нравятся боевики в верхней части экрана, и те, кто предпочитает медленные фильмы на дно."

Факторы - это искусственные категории, которые не всегда похожи на те категории, которые люди придумали. самый важный фактор в ранней модели Netflix от Funk был определен пользователями, которые любили такие фильмы, как «Перл-Харбор» и «Свадебный планировщик», а также ненавидели такие фильмы, как «Lost in Translation» или «Eternal Sunshine of the Spotless Mind». Его модель показала, как машинное обучение может найти корреляции между группами людей и групп фильмов, которые люди никогда не заметили бы.

Общий подход Funk использовал 50 или 100 самые важные факторы как для пользователей, так и для видеороликов, чтобы сделать приличную догадку о том, как каждый пользователь будет оценивать каждый фильм. Этот метод, который часто называют уменьшение размерности или матричная факторизация, не была новой. Исследователи из политологии показали, что аналогичные методы, использующие данные голосования поименного голосования может предсказать голоса членов Конгресса с точностью 90 процентов. В психологии "Большая пятерка«Модель также использовалась для прогнозирования поведения путем объединения вопросов личности, на которые, как правило, отвечали аналогично.

Тем не менее, модель Funk была большим шагом вперед: она позволила технике хорошо работать с огромными наборами данных, даже с большим количеством недостающих данных - например, набором данных Netflix, где типичный пользователь оценивал только несколько десятков фильмов из тысяч в компании библиотека. Спустя более десятилетия после окончания конкурса Netflix Prize, Методы, основанные на SVDили связанные модели для неявных данных, по-прежнему являются инструментом выбора для многих веб-сайтов, чтобы предсказать, что пользователи будут читать, смотреть или покупать.

Эти модели могут предсказать и другие вещи.

Facebook знает, если вы республиканец

В 2013 исследователи Кембриджского университета Михал Косински, Дэвид Стиллвелл и Торе Грапел опубликовали статью о прогнозирующая способность данных Facebook, используя информацию, собранную через онлайн-тест личности. Их первоначальный анализ был почти идентичен тому, который использовался в Приложении Netflix, используя SVD, чтобы классифицировать как пользователей, так и вещи, которые они «любили» в верхние факторы 100.

В документе показано, что факторная модель, созданная с использованием «любимых» пользователей Facebook, Точность 95 процентов при разграничении между чернокожими и белыми респондентами, 93-процент, точный при разграничении мужчин от женщин, и 88-процент, точный при распознавании людей, которые были идентифицированы как геи из мужчин, которые были идентифицированы как прямые. Это может даже правильно отличить республиканцев от демократов 85 процентов времени. Это было также полезно, хотя и не так точно, для прогнозирование оценок пользователей на тест личности «Большая пятерка».

Существовал общественный протест в ответ; в течение нескольких недель Facebook понравилось пользователям по умолчанию.

Коган и канцлер, также исследователи Кембриджского университета в то время, начали использовать данные Facebook для предвыборного таргетинга в рамках сотрудничества с родительской фирмой Cambridge Analytica SCL. Коган пригласил Косинского и Стиллвелла присоединиться к его проекту, но он не получилось, По сообщениям, Косински подозревал, что Коган и канцлер могут иметь обратная конструкция модели «любит» Facebook для Cambridge Analytica. Коган отрицал это, заявив, что его проект "построил все наши модели используя наши собственные данные, собранные с использованием нашего собственного программного обеспечения ».

Что на самом деле сделали Коган и канцлер?

Когда я следил за событиями в истории, стало ясно, что Коган и канцлер действительно собрали множество своих данных через приложение thisisyourdigitallife. Конечно, они могли бы построить прогностическую модель SVD, подобную той, которая была опубликована в опубликованных исследованиях Косински и Стиллвелла.

Поэтому я отправил по электронной почте Когану, чтобы спросить, было ли это то, что он сделал. Несколько до удивления, он написал еще раз.

«Мы точно не использовали SVD, - писал он, отмечая, что SVD может бороться, когда некоторые пользователи имеют гораздо больше« симпатий », чем другие. Вместо этого Коган объяснил: «Техника была тем, что мы на самом деле создали сами ... Это не то, что находится в общественном достоянии». Не вдаваясь в подробности, Коган описал их метод как «многоступенчатый смежности подход."

Тем не менее, его сообщение продолжалось, чтобы подтвердить, что его подход действительно был похож на SVD или другие методы матричной факторизации, например, в конкурсе Netflix Prize и модели Kosinki-Stillwell-Graepel Facebook. Уменьшение размерности данных в Facebook было ядром его модели.

Насколько это верно?

Коган предположил, что используемая точная модель не имеет большого значения, но важна точность ее предсказаний. По словам Когана, «корреляция между прогнозируемыми и фактическими оценками ... была вокруг [30 процентов] для всех размеров личности». Для сравнения, предыдущие баллы Big Five человека Точность 70 до 80 процентов в предсказании их баллов, когда они повторно проходят тест.

Конечно, требования к точности Когана не могут быть независимо проверены. И у любого посреди такого громкого скандала может быть стимул занижать его или ее вклад. В его появление на CNN, Коган объяснил все более и более недоверчивым Андерсоном Купером, что на самом деле модели действительно не очень хорошо работали.

{youtube}APqU_EJ5d3U{/youtube}

Александр Коган отвечает на вопросы CNN.

Фактически, точность требований Когана кажется немного низкой, но правдоподобной. Косински, Стиллвелл и Грапел сообщили о сопоставимых или немного лучших результатах, так как несколько другие академические исследования используя цифровые следы для прогнозирования личности (хотя в некоторых из этих исследований было больше данных, чем просто «нравится» Facebook). Удивительно, что Коган и канцлер потрудились разработать свою собственную проприетарную модель, если бы готовые решения казались бы столь же точными.

Важно отметить, что, однако, точность модели в оценках личности позволяет сравнивать результаты Когана с другими исследованиями. Опубликованные модели с эквивалентной точностью в прогнозировании личности все более точны при угадывании демографии и политических переменных.

Например, подобная модель SVD Косински-Stillwell-Graepel была 85-процентной, точной в угадывании партийной принадлежности, даже без использования какой-либо профильной информации, отличной от симпатий. Модель Когана имела схожую или лучшую точность. Добавление даже небольшого объема информации о друзьях или демографических данных пользователей, вероятно, повысит эту точность выше 90 процентов. Угадывание по поводу пола, расы, сексуальной ориентации и других характеристик, вероятно, будет более чем на 90 процентов точным тоже.

Критически эти предположения были бы особенно полезны для наиболее активных пользователей Facebook - людей, которых модель в основном использовала для таргетинга. Пользователи, у которых меньше активности для анализа, скорее всего, не будут в Facebook.

Когда психографией является в основном демография

Знание того, как построена модель, помогает объяснить, по-видимому, противоречивые заявления Cambridge Analytica о роли - или их отсутствие - что профилирование личности и психография играли в его моделировании. Все они технически согласуются с тем, что описывает Коган.

Такая модель, как Kogan's, дает оценки для каждой переменной, доступной для любой группы пользователей. Это означает, что это автоматически оценить оценки личности «Большой пятерки» для каждого избирателя. Но эти оценки личности - это результат модели, а не входной. Все модели знают, что некоторые Facebook любит, и некоторые пользователи, как правило, группируются вместе.

С помощью этой модели Cambridge Analytica может сказать, что она идентифицировала людей с низкой открытостью и высокой невротикой. Но та же модель, с точно такими же прогнозами для каждого пользователя, могла точно так же утверждать, что она идентифицировала менее образованных пожилых республиканских мужчин.

Информация Когана также помогает разъяснить путаницу в отношении того, является ли Cambridge Analytica фактически удалил свой труд данных Facebook, когда модели, построенные на основе данных по-прежнему циркулируют, И даже дальнейшее развитие.

БеседаВся точка модели уменьшения размеров состоит в математическом представлении данных в более простой форме. Это похоже на то, что Cambridge Analytica сделала фотографию с очень высоким разрешением, изменила ее размер и уменьшила оригинал. Фотография все еще существует - и пока существуют модели Cambridge Analytica, данные также делают это.

Об авторе

Мэтью Хиндман, доцент средств массовой информации и связей с общественностью, Университет Джорджа Вашингтона

Эта статья изначально была опубликована в Беседа, Прочтите оригинал статьи.

Книги по этой теме

at Внутренний рынок самовыражения и Amazon