Исследователи из Confiant показали масштаб собираемых «Яндексом» данных о пользователях

В январе анонимный пользователь хакерского сайта BreachForums выложил в открытый доступ 45-гигабайтный кода «Яндекса». В файле, полученном «от недовольного сотрудника», не было данных о пользователях, однако он позволяет получить беспрецедентное представление о работе приложений и сервисов компании. Были раскрыты принципы работы поисковой системы, карты, голосового помощника, сервиса такси, почтового приложения и облачных сервисов «Яндекса».

Несмотря на то, что даже в ходе беглого анализа эксперты нашли, например наличие приоритетных групп пользователей или возможность скрытого удаленного включения микрофона Яндекс.Станции, шумиха в СМИ тогда стихла довольно быстро. Однако на прошлой неделе в ходе конференции Black Hat USA 2023  Кейли МакКри из Confiant сделала доклад, в котором содержался разбор этой утечки с точки зрения конфиденциальности пользователей сервисов Яндекс. Перевод этого доклада сделала организация «Роскомсвобода»*, мы публикуем его основные моменты.

МакКри вручную изучила две части кода: Yandex Metrica и Crypta.

Yandex Metrica — это аналог Google Analytics, программное обеспечение, которое размещает код на сайтах-участниках и в приложениях через AppMetrica, что позволяет отслеживать посетителей, вплоть до каждого движения мыши. В прошлом году программа AppMetrica была встроена в более чем 40 тыс. приложений в 50 странах мира, 

Эти данные, по словам МакКри, поступают в систему Crypta. Данный инструмент анализирует поведение людей в интернете, чтобы в конечном итоге показать им рекламу того, что их интересует. Как сообщается на сайте компании, анализируется более 300 «факторов», и алгоритмы машинного обучения группируют людей по их интересам.

В исходном коде показано, что AppMetrica собирает данные о точном местоположении человека, включая высоту, направление и скорость его передвижения. Кроме того, программа собирает имена сетей Wi-Fi, к которым подключаются люди. Эти данные поступают в систему Crypta, где название сети Wi-Fi связывается с общим идентификатором человека в системе «Яндекса», отмечает исследователь. Иногда система пытается связать несколько различных идентификаторов.

Сегменты, созданные Crypta, выглядят очень узкоспециализированными и показывают, насколько мощными являются данные о нашей жизни в Интернете, когда они суммируются. Есть рекламные сегменты для людей, использующих умную колонку «Алиса» от «Яндекса», «любителей кино» можно сгруппировать по их любимому жанру, есть пользователи ноутбуков, люди, которые «искали Radisson на картах», и мобильные геймеры, проявляющие свой долгосрочный интерес.

МакКри отмечает, что некоторые категории выделяются больше других. По её словам, сегмент «курильщики», по-видимому, отслеживает людей, которые покупают товары, связанные с курением, например — электронные сигареты. В то время как «летние жители», возможно, указывают на людей, имеющих дома для отдыха, и для определения этого используются данные о местоположении. Есть также раздел «путешественники», который может использовать данные о местоположении для отслеживания того, совершили ли они поездку из своего обычного места в другое — он включает в себя международные и внутренние поля. Одна из частей кода, похоже, извлекала данные из приложения Mail и включала поля «посадочные талоны» и «гостиницы».

Кроме того, Яндекс, похоже, выстраивает графы людей, проживающих рядом и способен сегментировать возраста детей по их голосу, полученному через Яндекс.Станцию.

Представители «Яндекса» не согласились с МакКри и утверждают, что группировка пользователей по интересам является «стандартной отраслевой практикой» и что рекламодатели не могут идентифицировать конкретных людей.

По их словам, сбор информации позволяет показывать людям конкретную рекламу:

«Для Crypta каждый пользователь представляется в виде набора идентификаторов, и система не может связать их с реальным человеком, – утверждает представитель «Яндекса». – Такой набор является только вероятностным».

 

Он добавляет, что Crypta не имеет доступа к электронной почте людей, и говорит, что данные Mail в коде о посадочных талонах и гостиницах были «экспериментом» и этот метод не используется с 2019 года. Кроме того, «Яндекс» удаляет геолокацию пользователя, собранную AppMetrica, через 14 дней.

По словам МакКри, в коде ещё показано, как «Яндекс» может объединять данные из нескольких сервисов. В одном сложном процессе данные о поиске взрослого человека могут быть взяты из поискового инструмента «Яндекса», AppMetrica и приложения компании «Яндекс.Такси», чтобы предсказать, есть ли в его семье дети. Часть кода классифицирует детей по возрасту: старше или младше 13 лет (по словам Черевко, люди могут заказывать такси с детскими сиденьями, что является признаком того, что они «интересуются специфическим контентом, который может быть интересен человеку с ребенком»).

Один из элементов кода Crypta показывает, каким образом все эти данные могут быть собраны воедино. Существует пользовательский интерфейс, представляющий собой профиль человека: он показывает семейное положение, прогнозируемый доход, наличие детей и три интереса на такие широкие темы как бытовая техника, еда, одежда и отдых.

Представители «Яндекса» отмечают, это «внутренний инструмент Яндекса», с помощью которого сотрудники могут видеть, как алгоритмы Crypta классифицируют их, и доступ к своей информации они могут получить только самостоятельно. «Мы не сталкивались с какими-либо инцидентами, связанными со злоупотреблением доступом», – говорит он.

Хочется отметить, что сама по себе утечка исходного кода технологического гиганта говорит об обратном, также как, например, и утечка пользовательских данных сервиса «Яндекс.Еда». Кроме того, анализировавшие код эксперты отмечают, что «Яндекс» уже может делиться ограниченной информацией. В составе Crypta есть пять «матчеров», которые синхронизируют действия в отношении цифровых отпечатков с телекоммуникационными компаниями, в том числе с государственным «Ростелекомом».

В целом, МакКри пришла к выводу, что сервисы «Яндекса» собирают «слишком много данных» — гораздо больше, чем необходимо для простого показа контекстной рекламы. А регулярно происходящие утечки вызывают опасения, что собранная информация будет использована посторонними компании людьми с другой, возможно, злонамеренной целью.

С заботой о вашей безопасности, команда Origin Security

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *