Анатомия трекеров
Анатомия трекеров
03 марта
Статьи

Глубокое погружение в технологию корпоративного наблюдение дает понять, что Фонд электронных рубежей (Electronic Frontier Foundation, EFF) решает демистифицировать загадочные "трекеры", которые следят за нами на сайтах и в реальной жизни - давайте разберемся в том, как работают трекеры.

Трекеры - это то, шо нас окружает, каждый день мы используем устройства, имеющие доступ к сети Интернет, заходим на сайты, постимся фото в социальных сетях и даже не догадываемся, что трекеры скрываются почти во всех углах Интернета и современной жизни. Чтобы вы лучше смогли представить себе мир трекеров, я приведу несколько простых примеров - ТРЦ часто используют автоматические считыватели номерных знаков, чтобы отслеживать трафик через свои парковки, это не распространено у нас, но в развитых странах на массовых мероприятиях люди получают специальные Bluetooth или WiFi маячки для пассивного отслеживания перемещения людей в районе проведения мероприятия. Крупные торговые магазины используют системы распознавания лиц и анализа поведения клиентов, с помощью которых они могут идентифицировать клиентов для отправки таргет-рекламы.

Как система трекеров работает на практике?

В 2016 году New York Times опубликовала статью о Target. Так, например, Target может точно определить, когда женщина беременна. Специалисты по данным Target связывали будущих мам с датой рождения их младенцев и следили за тем, что они покупали. Основываясь на этой информации, закономерности стали очевидны - Target увидела, что женщины, как правило, покупали лосьон без запаха во втором триместре или витамины в течение первых 20 недель. Target использовала эту информацию для отслеживания покупателей через их «гостевые идентификаторы», чтобы сделать предположение о том, какие женщины могут быть беременными, а потом нацеливала на них рекламные объявления.
Однажды в Target зашел мужчина и обругал менеджера за то, что Target рассылает его дочери-подростку книги с купонами детских товаров. Он настаивал на том, что его дочь не беременна, и Target должен прекратить посылать эти купоны. Вскоре после этого случая отец позвонил менеджеру, чтобы извиниться, и сказал: «Оказывается, в моем доме происходили определенные события, о которых я не был полностью осведомлен. Она должна родить в августе ».
Технологические компании, торговцы данным, рекламодатели, которые стоят за этими отслеживания, а также сами технологии отслеживания - обычно невидимые для пользователя. Корпорации создали некий зал односторонних зеркал. Внутри социальных сетей вы можете видеть только приложения, веб-страницы, рекламу и себя самих, но с обратной стороны зеркала находятся трекеры, которые спокойно записывают практически все, что вы делаете. Данные, которые они собирают и получают, не идеально точны, но, тем не менее, чрезвычайно чувствительны.

Отслеживание сервисом vs. Отслеживание третьей стороной

Крупнейшие компании собирают огромные объемы данных, когда люди пользуются их услугами. Facebook знает, кто ваши друзья, что вам «нравится» и какой контент вы читаете в ленте новостей. Google осведомлен о том, что вы ищете и куда вы идете, когда именно вы перемещаетесь с помощью Google Maps. Amazon - что вам нужно купить и что вы уже покупали.
Данные, которые эти компании собирают с помощью своих собственных продуктов и услуг, называются «отслеживание сервисом». Эта информация может быть конфиденциальной, и компании уже давно используют ее некорректно. Сервисы обычно собирают данные, получая так называемую согласие: «пользуясь нашим сервисом, вы позволяете использовать данные, которые мы собираем».
Однако компании собирают больше личной информации о пользователях их услуг, например Facebook, собирает информацию с помощью своих невидимых «точек конверсии». Аналогичным образом Google отслеживает, в какой магазин вы пошли покупать товар в своем городе, после того как загуглилы этот товар, и эти данные могут использовать рекламодатели для лучших настроек в Google AdWords. Данные собираются, когда мы "Сёрфим" интернет или просто пользуемся телефоном или умными часами в рамках «отслеживание третьей стороной». Такое отслеживание труднее идентифицировать без помощи эксперта и почти невозможно избежать.

Что знают трекеры?

Кто-то заклеивает веб-камеру, кто-то считает это бессмысленным, но на самом деле это не имеет значения. ТехноГигант, такие как Google, Facebook и другие прекрасно знают, что тайное прослушивание или слежка незаконны. Страшная правда заключается в том, что им даже не нужно следить за вами в камеру, чтобы знать все.
Самая распространенная угроза нашей конфиденциальности - медленное, постоянное и непоколебимое накопления, казалось бы, достаточно обычных данных, о том, как мы живем. Оно включает такие вещи, как история просмотров, использование приложений, историю покупок и данные геолокации. Эти незначительные отдельные данные могут быть объединены в одно целое, что расскажет о нас почти все. Трекеры собирают данные о наших кликах, просмотрах, нажатиях и переходов, создают большие поведенческие профили, которые могут обнаружить наши политические предпочтения, религиозные убеждения, сексуальную идентичность, расу и этнос, уровень образования, ежемесячный доход, потребительские привычки, а также физическое и психическое здоровье 'я.

Как трекеры связывают данные с конкретными людьми?

Большинство трекеров предназначены для создания профилей реальных людей. Это означает, что каждый раз, когда трекер собирает информацию, ему нужен идентификатор - то, что он может использовать, чтобы связать эту информацию с конкретным человеком. Иногда трекер делает это косвенно: сопоставляя собраны данные с определенным устройством или браузером, что, в свою очередь, впоследствии может соотноситься с одним человеком или, возможно, с небольшой группой людей.
Чтобы отслеживать, кто есть кто, трекерам нужны уникальные, постоянные и доступные идентификаторы. Иными словами, трекер ищет информацию, которая (1) указывает только на вас или устройство, которая (2) не изменится, то есть является стабильной, и к которой (3) он имеет легкий доступ. Некоторые потенциальные идентификаторы соответствуют всем трем из этих требований, но трекеры все еще могут использовать идентификатор, который проверяет только два из этих трех показателей. Также трекеры могут комбинировать несколько слабых идентификаторов, чтобы создать один сильный.
Идентификатор, который проверяет все три показателя может быть именем, адресом электронной почты или номером телефона. Это также может быть «имя», которое дает вам сам трекер, например «af64a09c2» или «921972136.1561665654». Для трекера важное то, что идентификатор указывает на вас и только вас. Впоследствии он может создать достаточно полный профиль о человеке, известном как «af64a09c2» - где он живет, что читает, что покупает, обычное имя ему даже не нужно. Трекеры могут использовать искусственные идентификаторы, такие как cookie-файлы и рекламные ID, чтобы компании могли писать целевым группам пользователей личные сообщения со своими предложениями. Данные, которые не связаны с реальным именем, вроде Василий Петрович Иванов, не менее чувствительны «анонимные» профили личной информации почти всегда могут быть связаны с реальными людьми. Эти личные профили выглядят как таблицы, где указаны идентификаторы и их статус.
Один из самых хитрых и виртуозных способов отслеживания - трекер создает фигуры и графику с текстом в различных шрифтах, а затем следит за тем, какие шрифты отобразились с какого устройства, ведь на устройствах с различными экранами, операционными системами и аппаратным обеспечением отобразятся различные шрифты. Затем трекер переводит отраженный на устройстве шрифт в его хеш-код. И после анализа рекламодатель уже понимает, с какого устройства вы заходили.

Как собираются данные?

Чтобы отслеживать нас, компаниям, которые этим занимаются, нужно убедить разработчиков веб-сайтов и приложений включить определенный код отслеживания в свои продукты. А это не так просто, потому что включение такого кода в программу может нести для нее риски: это может замедлить работу ПО, раздражать пользователей и подвергать сайт / приложение риска получить штраф, например за GDPR. Однако крупнейшие сети отслеживания охватывают большую часть интернета, постоянно собирая данные из миллионов различных источников. Так как же выглядит трекеры сетевого отслеживания?
Доминирующая рыночная сила в отслеживании - индустрия рекламы. Поэтому неудивительно, что онлайн-реклама является одним из основных инициаторов сбора данных. В простой модели одна рекламная сеть размещает рекламу на нескольких веб-сайтах. Владелец сайта, который работает с рекламной сетью, должен разместить на своем сайте небольшой фрагмент кода, который будет загружать рекламу с рекламного сервера. Так, каждый раз, когда пользователь посещает сайт, отправляется запрос этом рекламном сервера, а тот в ответ отправляет файлы cookie на компьютер пользователя, благодаря которым рекламодатель теперь видит приблизительную статистику веб-серфинга пользователя, если тот посещает сайты той же рекламной сети. Так и начинается отслеживания. Аналогичным образом, рекламный сервер может предоставить разработчикам мобильных приложений комплект ПО с API для размещения рекламы. Каждый раз, когда пользователь открывает приложение, которое использует такое ПО, приложение отправляет запрос на рекламный сервер. Этот запрос содержит рекламный идентификатор пользователя, что позволяет рекламном сервера профилировать активность пользователя в различных приложениях.
На самом деле экосистема онлайн-рекламы еще сложнее. На рекламных биржах проводятся «аукционы в реальном времени» для отдельных показов объявлений на веб-страницах. При этом они могут загружать код от нескольких других сторонних поставщиков рекламы и могут делиться данными со многими потенциальными рекламодателями, которые принимают участие в аукционе. Каждое объявление, которое вы видите, может быть использовано для обмена данными с десятками трекеров. Ниже - несколько инструментов, с помощью которых технологические компании наблюдают за пользователями.

Рекламная аналитика и пиксели конверсии

Код отслеживания не всегда встроенный во что-нибудь видимое для пользователей, например в рекламный баннер. Значительная часть отслеживания происходит через невидимые «пиксели». Эти пиксели используются многими собирателями данных в интернете - Google Аналитикой, Facebook, Amazon и т.д.
Когда владельцы веб-сайтов устанавливают сторонние пиксели отслеживания, они обычно делают это в обмен на доступ к некоторым данным, которые собирает пиксель. Например, Google Аналитика предлагает владельцам сайтов информацию о том, какие люди посещают их сайты.
Встроенные медиаплееры
Наблюдение за пользователями часто реализуется с помощью встроенной рекламы в видео и в текстовые блоги на различных платформах, предоставляющих такую возможность - YouTube, Vimeo, Streamable, Twitter и т.д. Отслеживание может вестись и с помощью аудио-виджетов для сервисов Soundcloud, Spotify и потокового подкаста. Эти медиаплееры почти всегда работают в IFrame (встроенном коде) и поэтому имеют доступ к локальному хранилищу и могут произвольно запускать JavaScript-код. В последнее время ведется борьба со встроенными плеерами, так как это не только способ собирать данные, но и большой пробел в безопасности.
Виджеты социальных сетей
Соцсети предоставляют веб-сайтам различные услуги, такие как кнопки «Нравится в Facebook» или «Поделиться в Twitter». Они часто представляются владельцам сайтов как легкий способ увеличить трафик и присутствие в социальных сетях. Кнопки «Нравится» и «Поделиться» могут использоваться для отслеживания точно так же, как пиксели, «кнопка» на самом деле является встроенным изображением, которое инициирует запрос к серверу соцсети.
Более сложные виджеты, например, раздел комментариев (когда на сайте можно комментировать новость из своего профиля Google / Facebook) работают аналогично встроенным медиаплеерам. Они обычно входят в IFrame и имеют больше доступа к браузерам пользователей, чем простые пиксели или кнопки. Как и медиаплееры, эти виджеты могут получать доступ к локальному хранилищу и запускать произвольный JavaScript-код, чтобы вычислить идентификатор браузера.
Наконец, крупнейшие компании (в частности, Facebook и Google) предлагают услуги по управлению учетными записями для различных сайтов, например «Войти через Google», «Авторизоваться через Facebook». Эти службы «единого входа» (OAuth) привлекательны для владельцев сайтов по нескольким причинам: (1) веб-сайты и приложения могут перевести работу по управлению учетными записями на крупные компании (2) пользователи могут запоминать меньше паролей и логинов и реже проходить процедуру регистрации / входа. Но пользователи тут же платят свою цену: они позволяют Google, Facebook и др. выступать в роли третьей стороны и отслеживать свои действия на всех сайтах, где они (пользователи) осуществили такой вход. Сервисы входа в систему - это более надежные трекеры, чем пиксели или другие простые виджеты, поскольку они заставляют пользователей подтверждать свою личность.

Капча

Капча - это технология, которая традиционно отделяет людей от роботов. Владельцы сайтов устанавливают капчу на страницах, где им особенно важно заблокировать автоматический трафик - на страницах регистрации и страницах с особенно большими файлами.

ReCAPTCHA от Google - самая популярная технология капчи в интернете сейчас. Каждый раз, когда вы подключаетесь к сайту, который использует recaptcha, ваш браузер подключается к домену .google.com, чтобы загрузить ресурсы капчи и делится всеми связанными куки-файлами с Google. Это означает, что сеть капча - еще один источник данных, который Google может использовать для профилирования пользователей.
В то время как старая капча просила вас прочитать искаженный текст или щелкнуть на картинки со светофорами, новая ReCAPTCHA v3 записывает «взаимодействия с сайтом» и бесшумно обнаруживает, является ли пользователь человеком. ReCaptcha генерирует нечто похожее на поведенческий идентификатор, в котором собрано то, как пользователь взаимодействует со страницей. Далее Google отправляет эти данные в свои нейронные сети для оценки вероятности того, что пользователь человек, а затем возвращает этот результат на начальный сайт. Кроме удобства для пользователей, эта новая система выгодна Google двумя вещами. Во-первых, из-за невидимой рекапчи пользователи не задают вопросов по поводу того, куда Google отправляет их данные. Во-вторых, при анализе «робот или человек» Google использует свой огромный массив поведенческих данных, собранных из различных служб, и поэтому находятся вне конкуренции на рынке капчи.

Кто собирает данные кроме ТехноГигант?
Дата-брокеры
Это компании, которые собирают, агрегируют, обрабатывают и продают данные. Они работают незаметно для обычных пользователей в центре экономики обмена данными. Часто брокеры не имеют прямых отношений с пользователями, и люди, о которых они продают данные, могут не знать, что они существуют. Дата-брокеры покупают информацию у небольших компаний, в том числе в розничных продавцов, финансово-технологических компаний, медицинских исследовательских компаний, интернет-рекламодателей, телекомов, производителей устройств Интернета вещей и в местных органах власти. Затем они продают данные (или услуги на основе данных) рекламодателям, агентам по недвижимости, исследовательским компаниям, университетам, правительствам или другим дата-брокерам.
Политические силы
Бизнес - не единственный, кто пытается извлечь выгоду из сбора данных и целевой рекламы. Как показал случай с компанией Cambridge Analytica, сбором данных интересуются и политтехнологи. Cambrige Analytica исследовала незаконно полученные личные данные миллионов потенциальных избирателей для оценки их «психографии», а затем использовала эти данные для политических кампаний. В 2018 году группа американских консерваторов CatholicVote использовала данные о местонахождении мобильного телефона, чтобы определить, кто находился внутри католической церкви, а затем отправляла им рекламу с просьбой проголосовать за Трампа.

Что такое Кросс-трекинг?
Кроме трекеров привязанных к конкретной платформе - веб-страница, приложение, баннер, есть трекеры, которые действуют независимо от платформы. Такие трекеры часто используют спец-службы для слежения за хакерами.
Cross-device tracking - тип атак, которые представляют возможность отслеживать пользователя параллельно через несколько устройств. Это давняя мечта маркетологов, однако не только маркетологам понравилась эта технология: она оказалась эффективной при деанонимизация киберпреступников, использующих для сокрытия настоящего IP-адреса Tor, VPN и proxy.
Наверняка вы сталкивались с социологическим опросам, когда вам звонят домой и спрашивают, смотрите ли вы сейчас телевизор и если да, уточняют, какой канал. Таким образом обзванивать, например, 1000 человек и рассчитывается процентное соотношение. Это нужно каналам, чтобы, во-первых, понимать интересы аудитории, а во-вторых, охват - это важно для продажи рекламы.
Важно это и маркетологам, чтобы точнее подбирать время заказа рекламы и оценивать объемы просмотров заказанной рекламы. Однако этот способ получения данных, имеет высокую погрешность и относительно малый охват.
Представьте себе, что ваш голосовой помощник в телефоне, который, как вы наверняка могли убедиться, прекрасно понимает живую речь, будет прослушивать периметр и определять, какой канал вы сейчас смотрите. Для этого реклама на канале будет содержать фразы-маячки (например, будет звучать «реклама на 1+1»), которые телефон ловит, а затем отсылает на сервер информацию, что сейчас вы смотрите определенный канал или слушаете какую-то радиостанцию. Это не прослушивания, так как, система пассивно слушает, но не передает всю информацию, например на серверы, только отдельные фразы-маячки без конкретного контекста. Это дешевая и эффективная технология, но инженеры хотят сделать ее еще более совершенной и использовать звуковые сигналы, не способен распознать слуховой аппарат человека. И это уже удалось.
Речь идет о Cross-device tracking. Эту технологию используют не только маркетологи, но и спецслужбы. Представьте себя очень опасным хакером, которого разыскивает ФБР. Вы заходите на сайт-ловушку, подготовленный специально для вас. Это абсолютно безвредный сайт, никаких атак он проводить не станет, это может быть даже страница популярного сайта, владелец которого совместно с ФБР создаст ее для вас.
Вы спокойно путешествуете по сайту, простой атакой вас не сломать, вы хорошо подумали о безопасности и используете Whonix.

* Whonix - дистрибутив Linux на основе Debian, ранее известный как TorBOX. Предназначен для обеспечения анонимности средствами VirtualBox и Tor. Его особенностью является то, что ни вредоносные программы, ни компрометация учетной записи суперпользователя не могут привести к утечке IP-адреса и DNS.

Это действительно очень хорошая защита от активной деанонимизация. И вот вы заходите на сайт и слышите звук. Даже если вы что-то заподозрили и закрыли сайт, ничего уже не изменить.
Этот звук слышит ваш телефон, и для него это сигнал. Допустим, разработчик голосового помощника на вашем мобильном устройстве или одного из приложений, имеющих доступ к микрофону, сотрудничает с ФБР. Данные о получении сигнала будут немедленно переданы устройством на серверы вместе с координатами и IP-адресом.
Так, на компьютере у вас стоит Whonix, но маловероятно, что и ваш телефон защищен так же надежно. Вы все сделали правильно, просто не все до конца учли. Если вам когда-нибудь понадобится ноутбук с максимальной безопасностью, необходимо отключить звук, лучше паяльником, но можно и с помощью настроек.

Почему эта технология такая эффективная?
В случае cross-device tracking телефон может отправить любую информацию о пользователе: координаты, номер телефона, контакты в адресной книге, аккаунт Google / Apple, историю звонков / СМС, список используемых Wi-Fi сетей - этого более чем достаточно для деанонимизация лица. Эта система позволяет трекерам взаимодействовать даже на разных платформах, девайсах.

Итак, наш мир полон трекеров, они всегда рядом с нами. Трекеры - это технология, которая никогда не стоит на месте и даже когда вы читаете данную статью, трекеры становятся более совершенными с помощью машинного обучения. Они могут быть как угрозой так и вашим другом. У каждого есть право на приватность личности но нужно помнить, что в большинстве случаев мы сами предоставляем информацию о нас.