/ Автор: Светлана Антонова | Оставить комментарий
Встроенная в Claude функция выполнения сетевых запросов в режиме Code Interpreter оказалась каналом для возможной утечки данных — автор разбора подробно описал, как сочетание доступа к файловому API Anthropic и запуска кода в песочнице позволяет отправлять чужие файлы на аккаунты злоумышленников.
Claude — семейство моделей для генерации текста, кода, презентаций и не только.
Создатели нейросети — стартап Anthropic AI, который в 2021 году основали выходцы из OpenAI — компании-разработчика ChatGPT. Claude умеет отвечать на вопросы, писать тексты, генерировать идеи, решать математические задачи, помогать с программированием. Одна из главных особенностей — умение работать с длинным контекстом.
Проблема с Code Interpreter опасна тем, что эксплойт использует официальные интерфейсы платформы и срабатывает при стандартной конфигурации, которую многие считают безопасной.
Суть атаки заключается в том, что при включённом сетевом доступе Code Interpreter может обращаться к ряду разрешённых доменов — это режим «только менеджеры пакетов», в котором в белом списке находятся сервисы вроде npm, PyPI и api.anthropic.com. Именно доступ к api.anthropic.com даёт путь к Files API — интерфейсу, позволяющему загружать файлы в аккаунт Anthropic и затем получать их через консоль или API-запросы.
Атака разворачивается так:
- Вредоносная подсказка заставляет модель сохранить в песочнице содержимое, к которому есть доступ пользователя — например последний чат — в файл по пути вида /mnt/user-data/outputs/hello.md.
- Затем модель выполняет код, который вызывает Files API и передаёт в окружении ключ ANTHROPIC_API_KEY.
- Если ключ принадлежит злоумышленнику, файл загрузится в его учётную запись и станет доступен в консоли атакующего.
По документации размер одного файла может достигать 30 МБ, а последовательные загрузки позволяют похищать большие объёмы данных.
Автор исследования отмечает, что изначально при первой попытке эксплойт сработал, но затем модель начала отвергать явно подозрительные инструкции, в том числе строки с открытыми ключами. Попытки обхода фильтров через кодирование не всегда помогали; надёжнее получалось «замаскировать» вредоносные действия среди большого количества безобидных операций, например простых печатных команд, что снизило подозрительность выполнения.
С точки зрения процесса раскрытия уязвимости был инцидент: отчёт отправили через платформу HackerOne 25 октября 2025 года, но запрос первоначально закрыли как «вне зоны», посчитав проблему вопросом безопасности модели, а не продуктовой уязвимостью. Позже, 30 октября 2025 года, поставщик подтвердил, что сценарии утечки данных такого рода принимаются к рассмотрению, и признал наличие ошибки в процедуре обработки сообщений об инцидентах.
Риски этого вектора включают возможность непрямого внедрения инструкций через документы или другие входные файлы: модель может разобрать такой контент как команду, прочитать локальные данные, сохранить их в файл и отправить через официальный интерфейс. Похожая логика может сработать и через другие домены из белого списка, если они позволяют пересылать или сохранять пользовательские файлы на аккаунты третьих лиц.
Для уменьшения угрозы автор и аналитики предлагают несколько мер:
- На стороне поставщика стоит жёстко привязать сетевые вызовы из песочницы к учётной записи залогиненного пользователя, чтобы любые загрузки автоматически связывались с текущим аккаунтом и не могли попадать в чужие учётные записи.
- Альтернативно можно ограничить или полностью заблокировать доступ исполняемого кода к файловым API;
- внедрить более строгий аудит и фильтрацию сетевых запросов в реальном времени с возможностью автоматической остановки сеанса при попытке передачи данных;
- пересмотреть список разрешённых доменов с учётом побочных эффектов.
- Для организаций и пользователей практической защитой остаётся отключение сетевого доступа в Code Interpreter там, где это допустимо, и использование точечного allow-list только для действительно необходимых ресурсов.
Кроме утечки, описанный канал может служить для реализации командно-контрольной логики: приём и исполнение удалённых инструкций превращает подобный инцидент не просто в утечку, а в проблему управления и восстановления после компрометации. Автор намеренно не публикует точный рабочий пейлоад и примеры ключей, чтобы не облегчать повторение атаки.
Главный вывод остаётся простым: расширение возможностей ИИ-инструментов увеличивает поверхность атак, и разрешения для сетевых запросов должны сопровождаться строгими техническими гарантиями. Поставщики обязаны учитывать сценарии злоупотребления собственными интерфейсами, а организации — тщательно проверять и корректировать настройки доступа перед тем, как разрешить моделям выход в сеть.
С заботой о вашей безопасности, команда Origin Security




