Анатомія трекерів
Анатомія трекерів
03 Березня
Статті

Глибоке занурення в технологію корпоративного спостереження дає зрозуміти, що Фонд електронних рубежів (Electronic Frontier Foundation, EFF) вирішує демістифікувати загадкові "трекери", які стежать за нами на сайтах і в реальному житті — давайте розберемося в тому, як працюють трекери.

Трекери — це те, шо нас оточує, кожен день ми використовуємо пристрої, що мають доступ до мережі Інтернет, заходимо на веб-сторінки, постимо фото в соціальних мережах і навіть не здогадуємось, що трекери ховаються майже у всіх кутках Інтернету та сучасного життя.

Щоб ви краще змогли уявити собі світ трекерів, я приведу декілька простих прикладів — ТРЦ часто використовують автоматичні зчитувачі номерних знаків, щоб відслідковувати трафік через свої парковки, це не розповсюджено у нас, але в розвинених країнах на масових заходах люди отримують спеціальні Bluetooth чи WiFi маячки для пасивного відслідковування переміщення людей в районі проведення заходу. Великі торгові магазини використовують системи розпізнавання обличя та аналізу поведінки клієнтів, за допомогою яких вони можуть ідентифікувати клієнтів для надсилання таргет-реклами.

Як саме система трекерів працює на практиці? У 2016 році New York Times опублікувала статтю про Target. Так, наприклад, Target може точно визначити, коли жінка вагітна. Фахівці з даними Target пов'язували майбутніх мам з датою народження їх немовлят і стежили за тим, що вони купували. Грунтуючись на цій інформації, закономірності стали очевидні - Target побачила, що жінки, як правило, купували лосьйон без запаху в другому триместрі або вітаміни протягом перших 20 тижнів. Target використовувала цю інформацію для відстеження покупців через їхні «гостьові ідентифікатори», щоб зробити припущення про те, які жінки можуть бути вагітними, а потім націлювала на них рекламні оголошення.

Одного разу в Target зайшов чоловік і вилаяв менеджера за те, що Target розсилає його дочці-підлітку книги з купонами дитячих товарів. Він наполягав на тому, що його дочка не вагітна, і Target повинен припинити надсилати ці купони. Незабаром після цього випадку батько подзвонив менеджеру, щоб вибачитися, і сказав: «Виявляється, в моєму будинку відбувалися певні події, про які я не був повністю обізнаний. Вона повинна народити в серпні».

Технологічні компанії, торговці даними, рекламодавці, які стоять за цими відстеженнями, а також самі технології відстежування - зазвичай невидимі для користувача. Корпорації створили такий собі зал односторонніх дзеркал. Всередині соціальних мереж ви можете бачити тільки додатки, веб-сторінки, рекламу і себе самих, але зі зворотного боку дзеркала знаходяться трекери, які спокійно записують практично все, що ви робите. Дані, які вони збирають і отримують, не ідеально точні, але, тим не менше, надзвичайно чутливі.

Відстеження сервісом vs. Відстеження третьої стороною

Найбільші компанії збирають величезні обсяги даних, коли люди користуються їх послугами. Facebook знає, хто ваші друзі, що вам «подобається» і який контент ви читаєте в стрічці новин. Google обізнаний про те, що ви шукаєте і куди ви йдете, коли саме ви переміщується за допомогою Google Maps. Amazon - що вам потрібно купити і що ви вже купували.

Дані, які ці компанії збирають за допомогою своїх власних продуктів і послуг, називаються «відстеження сервісом». Ця інформація може бути конфіденційною, і компанії вже давно використовують її некоректно. Сервіси зазвичай збирають дані, отримуючи так звану згоду: «кристуючись нашим сервісом, ви дозволяєте використовувати дані, які ми збираємо».

Однак компанії збирають більше особистої інформації про користувачів їхніх послуг, наприклад Facebook, збирає інформацію за допомогою своїх невидимих «пікселів конверсії». Аналогічним чином Google відстежує, в який магазин ви пішли купувати товар в своєму місті, після того як загуглили цей товар, і ці дані можуть використовувати рекламодавці для кращих налаштувань в Google AdWords. Дані збираються, коли ми “серфим” веб або просто користуємося телефоном або розумним годинником в рамках «відстеження третьою стороною». Таке відстеження важче ідентифікувати без допомоги експерта і майже неможливо уникнути.

Що знають трекери?

Хтось заклеює веб-камеру, хтось вважає це безглуздим, але насправді не має значення. Техногіганти, такі як Google, Facebook та інші чудово знають, що таємне прослуховування чи стеження є незаконним. Страшна правда полягає у тому, що їм навіть не потрібно слідкувати за вами у камеру, щоб знати все.

Найпоширеніша загроза нашій конфіденційності - повільне, постійне і непохитне накопичення здавалося б досить звичайних даних про те, як ми живемо. Воно включає такі речі, як історія переглядів, використання додатків, історію покупок і дані геолокації. Ці здавалося б незначні окремі дані можуть бути об'єднані в значне ціле, яке розповість про нас майже все. Трекери збирають дані про наші кліки, перегляди, натискання і переходи, створюють великі поведінкові профілі, які можуть виявити наші політичні уподобання, релігійні переконання, сексуальну ідентичність, расу і етнос, рівень освіти, щомісячний дохід, споживчі звички, а також фізичне і психічне здоров'я.

Як трекери зв’язують данні з конкретними людьми?

Більшість трекерів призначені для створення профілів реальних людей. Це означає, що кожен раз, коли трекер збирає інформацію, йому потрібен ідентифікатор - те, що він може використовувати, щоб зв'язати цю інформацію з конкретною людиною. Іноді трекер робить це побічно: зіставляючи зібрані дані з певним пристроєм або браузером, що, в свою чергу, згодом може співвідноситися з однією людиною або, можливо, з невеликою групою людей.

Щоб відстежувати, хто є хто, трекерам потрібні унікальні, постійні та доступні ідентифікатори. Іншими словами, трекер шукає інформацію, яка (1) вказує тільки на вас або ваш пристрій, яка (2) не зміниться, тобто є стабільною, і до якої (3) він має легкий доступ. Деякі потенційні ідентифікатори відповідають всім трьом з цих вимог, але трекери все ще можуть використовувати ідентифікатор, який перевіряє тільки два з цих трьох показників. Також трекери можуть комбінувати кілька слабких ідентифікаторів, щоб створити один сильний.

Ідентифікатор, який перевіряє всі три показники, може бути ім'ям, адресою електронної пошти або номером телефону. Це також може бути «ім'я», яке дає вам сам трекер, наприклад «af64a09c2» або «921972136.1561665654». Для трекера найважливіше те, що ідентифікатор вказує на вас і тільки на вас. Згодом він може створити досить повний профіль про людину, відомому як «af64a09c2» - де він живе, що читає, що купує, звичайне ім'я йому навіть не потрібно. Трекери можуть використовувати штучні ідентифікатори, такі як cookie-файли та рекламні ID, щоб компанії могли писати цільовим групам користувачів приватні повідомлення зі своїми пропозиціями. Дані, які не пов'язані з реальним ім'ям начебто Василь Петрович Іванов, не менше чутливі: «анонімні» профілі особистої інформації майже завжди можуть бути пов'язані з реальними людьми. Ці особисті профілі виглядають як таблиці, де вказані ідентифікатори та їх статус.

Один з найбільш хитрих і віртуозних способів відстеження: трекер створює фігури і графіку з текстом в різних шрифтах, а потім стежить за тим, які шрифти відобразилися з якого пристрою, адже на пристроях з різними екранами, операційними системами та апаратним забезпеченням відобразяться різні шрифти. Потім трекер переводить відображений на пристрої шрифт в код - хешує його. І після аналізу рекламодавець вже розуміє, з якого пристрою ви заходили.

Як збираються данні?

Щоб відстежувати нас, компаніям, які цим займаються, потрібно переконати розробників веб-сайтів і додатків включити певний код відстеження в свої продукти. А це не так просто, тому що включення такого коду в програму може нести для неї ризики: це може уповільнити роботу ПЗ, дратувати користувачів і піддавати сайт/додаток ризику отримати штраф, наприклад за GDPR. Проте найбільші мережі відстеження охоплюють більшу частину інтернету, постійно збираючи дані з мільйонів різних джерел. Так як же виглядають трекери мережевого відстеження?

Домінуюча ринкова сила у відстеженні — індустрія реклами. Тому не дивно, що онлайн-реклама є одним з основних ініціаторів збору даних. У простій моделі одна рекламна мережа розміщує рекламу на декількох веб-сайтах. Власник сайту, який працює з рекламною мережею, повинен розмістити на своєму сайті невеликий фрагмент коду, який буде завантажувати рекламу з рекламного серверу. Так, кожен раз, коли користувач відвідує сайт, відправляється запит цьому рекламному серверу, а той у відповідь відправляє файли cookie на комп'ютер користувача, завдяки якими рекламодавець тепер бачить приблизну статистику веб-серфінгу користувача, якщо той відвідує сайти тієї ж рекламної мережі. Так і починається відстеження. Аналогічним чином, рекламний сервер може надати розробникам мобільних додатків комплект ПО з API для розміщення реклами. Кожного разу, коли користувач відкриває додаток, який використовує таке ПО, додаток відправляє запит на рекламний сервер. Цей запит містить рекламний ідентифікатор користувача, що дозволяє рекламному серверу профілювати активність користувача в різних додатках.

Насправді екосистема онлайн-реклами ще складніше. На рекламних біржах проводяться «аукціони в реальному часі» для окремих показів оголошень на веб-сторінках. При цьому вони можуть завантажувати код від декількох інших сторонніх постачальників реклами і можуть ділитися даними про кожного з багатьма потенційними рекламодавцями, які беруть участь в аукціоні. Кожне оголошення, яке ви бачите, може бути використано для обміну даними з десятками трекерів. Нижче - кілька інструментів, за допомогою яких технологічні компанії спостерігають за користувачами.

Рекламна аналітика і пікселі конверсії

Код відстеження не завжди вмонтований в що-небудь видиме для користувачів, наприклад в рекламний банер. Значна частина відстеження відбувається через невидимі «пікселі». Ці пікселі використовуються багатьма збирачами даних в інтернеті - Google Аналітикою, Facebook, Amazon і т.д.

Коли власники веб-сайтів встановлюють сторонні пікселі відстеження, вони зазвичай роблять це в обмін на доступ до деяких даних, які збирає той, хто надає піксель. Наприклад, Google Аналітика пропонує власникам веб-сайтів інформацію про те, які люди відвідують їх сайти.

Вбудовані медіаплеєри

Спостереження за користувачами часто реалізується за допомогою вбудованої реклами в відео і в текстові блоги на різних платформах, що надають таку можливість - YouTube, Vimeo, Streamable, Twitter і т.д. Відстеження може вестися і за допомогою аудіо-віджетів для сервісів Soundcloud, Spotify і потокового подкасту. Ці медіаплеєри майже завжди працюють в IFrame (вбудованому коді) і тому мають доступ до локального сховища і можуть довільно запускати довільний JavaScript-код. Останнім часом ведеться боротьба з вбудованими плеєрами, так як це не тільки спосіб збирати данні, а ще й велика прогалина в безпеці.

Віджети соціальних мереж

Соцмережі надають веб-сайтам різні послуги, такі як кнопки «Подобається в Facebook» або «Поділитися в Twitter». Вони часто представляються власникам сайтів як легкий спосіб збільшити трафік і присутність в соціальних мережах. Кнопки «Подобається» і «Поділитися» можуть використовуватися для відстеження точно так же, як пікселі: «кнопка» насправді є вбудованим зображенням, яке ініціює запит до сервера соцмережі.

Більш складні віджети, наприклад, розділ коментарів (коли на сайті можна коментувати новину зі свого профілю Google / Facebook) працюють більше як вбудовані медіаплеєри. Вони зазвичай входять в IFrame і мають більший доступ до браузерів користувачів, ніж прості пікселі або кнопки. Як і медіаплеєри, ці віджети можуть отримувати доступ до локального сховища і запускати довільний JavaScript-код, щоб обчислити ідентифікатор браузера.

Нарешті, найбільші компанії (зокрема, Facebook і Google) пропонують послуги з управління обліковими записами для різних сайтів, наприклад «Увійти через Google», «Авторизуватись через Facebook». Ці служби «єдиного входу» (OAuth) привабливі для власників сайтів з кількох причин: (1) веб-сайти і додатки можуть перекласти роботу з управління обліковими записами на великі компанії, (2) користувачі можуть запам'ятовувати менше паролів та логінів і рідше проходити процедуру реєстрації / входу. Але користувачі тут же платять свою ціну: вони дозволяють Google, Facebook та ін. виступати в ролі третьої сторони і відстежувати свої дії на всіх сайтах, де вони (користувачі) здійснили такий вхід. Сервіси входу в систему - це більш надійні трекери, ніж пікселі або інші прості віджети, оскільки вони змушують користувачів підтверджувати свою особистість.

Капча

Капча - це технологія, яка традиційно відокремлює людей від роботів. Власники сайтів встановлюють капчу на сторінках, де їм особливо важливо заблокувати автоматичний трафік - на сторінках реєстрації та сторінках з особливо великими файлами.

ReCAPTCHA від Google - найпопулярніша технологія капчі в інтернеті зараз. Кожен раз, коли ви підключаєтеся до сайту, який використовує recaptcha, ваш браузер підключається до домену .google.com, щоб завантажити ресурси капчі і ділитися всіма пов'язаними куки-файлами з Google. Це означає, що мережа капча - ще одне джерело даних, які Google може використовувати для профілювання користувачів.

У той час як стара капча просила вас прочитати спотворений текст або клацнути на картинки зі світлофорами, нова ReCAPTCHA v3 записує «взаємодії з веб-сайтом» і безшумно виявляє, чи є користувач людиною. ReCaptcha генерує щось схоже на поведінковий ідентифікатор, в якому зібрано те, як користувач взаємодіє зі сторінкою. Далі Google відправляє ці дані до своєї нейроної мережі для оцінки ймовірності того, що користувач людина, а потім повертає цей результат на початковий веб-сайт. Крім зручності для користувачів, ця нова система вигідна Google двома речами. По-перше, через невидиму рекапчу користувачі не ставлять запитань з приводу того, куди Google відправляє їх дані. По-друге, при аналізі «робот або людина» Google використовує свій величезний масив поведінкових даних, зібраних з різних служб, і тому знаходиться поза конкуренцією на ринку капчі.

Хто збирає дані крім техногігант?

Дата-брокери

Це компанії, які збирають, агрегують, обробляють і продають дані. Вони працюють поза увагою звичайних користувачів, але в центрі економіки обміну даними. Часто брокери не мають прямих відносин з користувачами, і люди, про яких вони подають дані, можуть не знати, що вони існують. Дата-брокери купують інформацію у невеликих компаній, в тому числі у роздрібних продавців, фінансово-технологічних компаній, медичних дослідницьких компаній, інтернет-рекламодавців, телекомів, виробників пристроїв Інтернету речей і у місцевих органів влади. Потім вони продають дані (або послуги на основі даних) рекламодавцям, агентам по нерухомості, дослідницьким компаніям, університетам, урядам або іншим дата-брокерам.

Політичні сили

Бізнес - не єдиний, хто намагається отримати вигоду з збору даних і цільової реклами. Як показав випадок з компанією Cambridge Analytica, збором даних цікавляться і політтехнологи. Cambrige Analytica досліджувала незаконно отримані особисті дані мільйонів потенційних виборців для оцінки їх «психографії», а потім використовувала ці дані для політичних кампаній. У 2018 році група американських консерваторів CatholicVote використовувала дані про місцезнаходження мобільного телефону, щоб визначити, хто знаходився всередині католицької церкви, а потім відправляла їм рекламу з проханням проголосувати за Трампа.

Що таке Крос-трекінг?

Окрім трекерів прив’язаних до конкретної платформи – веб-сторінка, додаток, банер, є трекери, які діють незалежно від платформи. Такі трекери часто використовують спец-служби для слідкування за хакерами.

Cross-device tracking - тип атак, які представляють можливість відстежувати користувача паралельно через кілька пристроїв. Це давня мрія маркетологів, однак не тільки маркетологам сподобалася ця технологія: вона виявилася ефективною при деанонімізація кіберзлочинців, що використовують для приховування справжнього IP-адреси Tor, VPN і proxy.

Напевно ви стикалися з соціологічними опитуваннями, коли вам телефонують додому і запитують, чи дивиться хтось зараз телевізор і якщо так, уточнюють, який канал. Таким чином обдзвонювати, наприклад, 1000 чоловік і розраховується процентне співвідношення. Це потрібно каналам, щоб, по-перше, розуміти інтереси аудиторії, а по-друге, охоплення - це важливо для продажу реклами.

Важливо це і маркетологам, щоб точніше підбирати час замовлення рекламі теперь і оцінювати обсяг переглядів замовленої реклами. Однак цей спосіб отримання даних, має високу похибку і відносно мале охоплення.

Уявіть собі, що ваш голосовий помічник в телефоні, який, як ви напевно могли переконатися, прекрасно розуміє живу мову, буде прослуховувати периметр і визначати, який канал ви зараз дивитеся. Для цього реклама на каналі буде містити фрази-маячки (наприклад, буде звучати «реклама на 1+1»), які телефон ловить, а потім відсилає на сервер інформацію, що зараз ви дивитеся певний канал або слухаєте якусь радіостанцію. Це не прослуховування, так як, система пасивно слухає, але не передає всю інформацію, наприклад на сервери, лише окремі фрази-маячки без конкретного контексту. Це дешева і ефективна технологія, але інженери хочуть зробити її ще більш досконалою і використовувати звукові сигнали, які не здатний розпізнати слуховий апарат людини. І це вже вдалося.

Мова йде про Cross-device tracking. Цю технологію використовують не тільки маркетологи, а й спецслужби. Уявіть себе дуже небезпечним хакером, якого розшукує ФБР. Ви заходите на сайт-пастку, підготовлений спеціально для вас. Це абсолютно нешкідливий сайт, ніяких атак він проводити не стане, це може бути навіть сторінка популярного сайту, власник якого спільно з ФБР створить її для вас.

Ви спокійно подорожуєте по сайту, простою атакою вас не зламати, ви добре подумали про безпеку і використовуєте Whonix. *Whonix - дистрибутив Linux на основі Debian, раніше відомий як TorBOX. Призначений для забезпечення анонімності засобами VirtualBox і Tor. Його особливістю є те, що ані шкідливі програми, ані компрометація облікового запису суперкористувача не можуть привести до витоку IP-адреси і DNS. Це дійсно дуже хороший захист від активної деанонімізація. І ось ви заходите на сайт і чуєте звук. Навіть якщо ви щось запідозрили і закрили сайт, нічого вже не змінити.

Цей звук чує ваш телефон, і для нього це сигнал. Припустимо, розробник голосового помічника на вашому мобільному пристрої або одного з додатків, що мають доступ до мікрофона, співпрацює з ФБР. Дані про отримання сигналу будуть негайно передані пристроєм на сервери разом з координатами і IP-адресою.

Так, на комп'ютері у вас стоїть Whonix, але малоймовірно, що і ваш телефон захищений так само надійно. Ви все зробили правильно, просто не все до кінця  врахували. Якщо вам коли-небудь знадобиться ноутбук з максимальною безпекою, необхідно відключити звук, краще паяльником, але можна і за допомогою налаштувань.

Чому ця технологія така ефективна?

У разі cross-device tracking телефон може відправити будь-яку інформацію про користувача: координати, номер телефону, контакти в адресній книзі, обліковий запис Google / Apple, історію дзвінків / СМС, і список використовуваних Wi-Fi мереж - цього більш ніж достатньо для деанонімізації особи. Ця система дозволяє трекерам взаємодіяти навіть на різних платформах, девайсах.

Отже, наш світ повний трекерів, вони завжди поряд з нами. Трекери - це технологія яка ніколи не стоїть на місці і, навіть, коли ви читаєте дану статтю, трекери стають більш досконалими за допомогою машинного навчання. Вони можуть бути як загрозою так і вашим другом. У кожного є право на приватність особистості але потрібно пом’ятати, що у більшості випадків ми самі надаємо інформацію про нас.