Как ваши друзья в Twitter могут подарить вам вашу анонимность

Когда вы просматриваете Интернет, отслеживайте онлайн-рекламодателей почти каждый сайт, который вы посещаете, накопление информации о ваших привычках и предпочтениях. Когда вы посещаете новостной сайт, они могут увидеть, что вы поклонник баскетбольных, оперных и таинственных романов и, соответственно, выбираете рекламу, соответствующую вашим вкусам.

Рекламодатели используют эту информацию для создания персонализированного опыта, но, как правило, они точно не знают, кто вы. Они наблюдают только ваш цифровой след, а не вашу личность, и поэтому вы можете почувствовать, что у вас сохранилась определенная анонимность.

Но в документе я соавтором с Аншем Шукла, Шарадом Голем и Арвиндом Нараянаном, мы показываем, что эти анонимные записи в Интернете могут фактически быть привязаны к реальным реальностям.

Чтобы проверить наш подход, мы построили Веб-сайт где люди могли бы пожертвовать свою историю просмотров для целей этого исследования. Затем мы попытались выяснить, можем ли мы связать свои истории с их профилями Twitter, используя только общедоступные данные. Семьдесят два процента людей, которых мы пытались деанонизировать, были правильно идентифицированы как лучший кандидат в результатах поиска, а 81 процентов были среди лучших кандидатов 15.

privacy2 2 8Скриншоты сайта деанонификации.

Это, насколько нам известно, самая масштабная демонстрация деанонификации на сегодняшний день, поскольку она выбирает правильного пользователя из сотен миллионов возможных пользователей Twitter. Кроме того, наш метод требует только того, что человек нажимает на ссылки, появляющиеся в своих каналах в социальных сетях, а не на то, что они публикуют контент - поэтому даже люди, которые заботятся о том, что они используют в Интернете, по-прежнему уязвимы для этой атаки.


графика подписки внутри себя


Как это работает?

На высоком уровне наш подход основан на простом наблюдении. У каждого человека очень своеобразная социальная сеть, состоящая из семьи и друзей из школы, работы и различных стадий их жизни. Как следствие, набор ссылок в ваших фидах для Facebook и Twitter является очень отличительным. Нажатие на эти ссылки оставляет контрольную метку в истории просмотров.

Изучая набор веб-страниц, которые посетил пользователь, мы смогли выбрать похожие каналы в социальных сетях, в результате чего список кандидатов, которые, вероятно, сгенерировали эту историю веб-просмотра. Таким образом, мы можем связать реальную личность человека с почти полным набором ссылок, которые они посещали, включая ссылки, которые никогда не были размещены на любом сайте социальных сетей.

Выполнение этой стратегии связано с двумя ключевыми задачами. Первое теоретическое: как вы оцениваете, насколько подобный конкретный фид социальных сетей относится к данной истории веб-просмотра? Одним простым способом является измерение доли ссылок в истории просмотров, которые также отображаются в фиде. Это на практике работает достаточно хорошо, но оно преувеличивает сходство для крупных каналов, поскольку они просто содержат больше ссылок. Вместо этого мы используем альтернативный подход. Мы позиционируем стилизованную вероятностную модель поведения веб-браузера, а затем вычисляем вероятность того, что пользователь с этим каналом социальных сетей генерирует наблюдаемую историю просмотров. Тогда мы выбираем канал социальных сетей, который, скорее всего.

Вторая задача заключается в идентификации наиболее похожих каналов в реальном времени. Здесь мы переходим к Twitter, поскольку Twitter-каналы (в отличие от Facebook) в основном публичны. Однако, несмотря на то, что каналы являются общедоступными, мы не можем просто создать локальную копию Twitter, с помощью которой мы можем запускать наши запросы. Вместо этого мы применяем ряд методов, которые значительно сокращают пространство поиска. Затем мы объединяем методы кэширования с обходами по требованию, чтобы построить каналы наиболее перспективных кандидатов. В этом сокращенном наборе кандидатов мы применяем нашу меру подобия для получения окончательных результатов. Учитывая историю просмотров, мы можем выполнить весь этот процесс в течение 60 секунд.

Наш метод более точен для людей, которые более активно просматривают Twitter. Девяносто процентов участников, которые нажали на 100 или другие ссылки в Twitter, могут быть сопоставлены с их личностью.

У многих компаний есть ресурсы отслеживания для проведения такой атаки, даже без согласия участника. Мы попытались деанонизировать каждого из участников эксперимента, используя только те части истории их просмотра, которые были видны конкретным компаниям-трекерам (потому что у компаний есть трекеры на этих страницах). Мы обнаружили, что у нескольких компаний есть ресурсы для точной идентификации участников.

Конфиденциальность 2 8Другие исследования по деанонификации

В нескольких других исследованиях использовались общедоступные следы для деанонификации конфиденциальных данных.

Возможно, самое известное исследование в этом направлении было выполнено Latanya Sweeney в Гарвардском университете в 2002. Она обнаружила, что 87 процентов американцев были однозначно идентифицируемы на основе комбинации почтового индекса, поля и даты рождения. Эти три атрибута были доступны как в публичных данных регистрации избирателей (которые она купила за USN 20), так и в анонимных медицинских данных (которые были широко распространены, поскольку люди считали данные анонимными). Подключив эти источники данных, она обнаружила медицинские записи губернатора штата Массачусетс.

В 2006 Netflix провела конкурс чтобы улучшить качество своих рекомендаций по фильму. Они выпустили анонимный набор данных о рейтингах людей и предложили команде $ 1 миллион, которые могли бы улучшить алгоритм их рекомендаций с помощью 10 процентов. Компьютерные ученые Арвинд Нараянан и Виталий Шматиков заметил, что просмотренные фильмы были очень отличительными, и большинство людей в наборе данных были однозначно идентифицированы на основе небольшого подмножества своих фильмов. Другими словами, на основе выбора фильмов Netflix и обзоров IMDB исследователи смогли определить, кто эти пользователи Netflix на самом деле были.

С ростом социальных сетей все больше людей обмениваются информацией, которая кажется безобидной, но на самом деле раскрывает много личной информации. Исследование, проведенное под руководством Михал Косински в Кембриджском университете использовал Facebook, чтобы предсказывать сексуальной ориентации, политических взглядов и личностных качеств.

Другая команда, возглавляемая Гилберт Вондрайс в Венском технологическом университете, построил «машину деанонификации», которая выяснила, какие группы людей были частью социальной сети Xing, и использовала ее для определения того, кем они были, - поскольку группы, в которых вы участвуете, часто достаточно, чтобы однозначно идентифицировать вы.

Что ты можешь сделать

Большинство из этих атак сложнее защищать, если вы не прекратите пользоваться Интернетом или не участвуете в общественной жизни.

Даже если вы перестанете пользоваться Интернетом, компании могут собирать данные на вас. Если несколько ваших друзей загружают свои телефонные контакты в Facebook, а ваш номер во всех своих списках контактов, Facebook может делать прогнозы о вас, даже если вы не пользуетесь их услугами.

Лучший способ защитить от алгоритмов деанонимизации, подобных нашей, - это ограничить набор людей, которые имеют доступ к вашим анонимным данным просмотра. Расширения браузера, такие как Ghostery блокировать сторонние трекеры. Это означает, что, хотя компания, веб-сайт которой вы посещаете, будет знать, что вы посещаете их, рекламные компании, показывающие рекламу на своей странице, не смогут собирать ваши данные для просмотра и объединять их на нескольких сайтах.

Если вы являетесь веб-мастером, вы можете защитить своих пользователей, разрешив им просматривать ваш сайт, используя HTTPS, Просмотр с помощью HTTP позволяет злоумышленникам получать историю просмотров, обнюхивая сетевой трафик, который позволяет им выполнять эту атаку. Многие веб-сайты уже перешли на HTTPS; когда мы повторили наш эксперимент по деанонификации с точки зрения сниффера сетевого трафика, можно было деанимизировать только 31 процентов участников.

Тем не менее, вы можете сделать очень мало, чтобы защитить себя от атак деанонификации в целом, и, возможно, лучший способ действий - скорректировать свои ожидания. В этом цифровом веке ничто не является частным.

Об авторе

Джессика Су, доктор философии. Студент в Стэнфорде, Стэнфордский университет

Эта статья изначально была опубликована в Беседа, Прочтите оригинал статьи.

Книги по этой теме

at Внутренний рынок самовыражения и Amazon