/ Автор: Светлана Антонова | Оставить комментарий
В четверг днём интернет по всему миру претерпел масштабные перебои, коснувшиеся сотен сервисов — от глобальных площадок вроде Cloudflare до популярных приложений Spotify и Discord. Источником сбоев стала авария в инфраструктуре Google Cloud, подтверждённая и самой компанией, и Cloudflare.
Сбой затронул многие корпоративные сервисы, включая Google API Gateway, Agent Assist, AlloyDB for PostgreSQL, Apigee, Apigee Edge Public Cloud, Apigee Hybrid, Cloud Data Fusion, Cloud Firestore, Cloud Logging, Cloud Memorystore, Cloud Monitoring, Cloud Run, Cloud Security Command Center, Cloud Shell, Cloud Spanner, Cloud Workstations, Contact Center AI Platform, Contact Center Insights, Data Catalog, Database Migration Service, Dataform, Dataplex, Dataproc Metastore, Datastream, Dialogflow CX, Dialogflow ES, Google App Engine, Google BigQuery, Google Cloud Bigtable, Google Cloud Composer, Google Cloud Console, Google Cloud DNS, Google Cloud Dataflow, Google Cloud Dataproc, Google Cloud Pub/Sub, Google Cloud SQL, Google Cloud Storage, Google Compute Engine, Identity Platform, Identity and Access Management, Looker Studio, Managed Service for Apache Kafka, Memorystore for Memcached, Memorystore for Redis, Memorystore for Redis Cluster, Persistent Disk, Personalized Service Health, Pub/Sub Lite, Speech-to-Text, Text-to-Speech, Vertex AI Online Prediction, Vertex AI Search, Vertex Gemini API, Vertex Imagen API, reCAPTCHA Enterprise.
Первые трудности начались около 11:46 PT (14:46 ET), после чего Google Cloud оперативно применил первые меры. К 14:00 PT сервисы начали постепенно возвращаться в работоспособное состояние, однако узел us‑central1 в Айове продолжал испытывать последствия проблемы.
Разбирательства в Cloudflare принесли неожиданное уточнение: причиной сбоев оказалась инфраструктура их сервиса Workers KV, использующая технологию стороннего облачного провайдера — именно она дала сбой, что вызвало отказ 90 % запросов к KV‑хранилищу и последовавшие перебои в WARP, Access, Dashboard, Workers AI и других продуктах Cloudflare. Перебои длились примерно 2 часа 28 минут, после чего сервисы вернулись онлайн.
Проблемы затронули не только сторонние приложения — наблюдались сбои сервисов Google. Пользователи испытывали трудности с Gmail, Google Meet, Google Calendar, Google Drive, Google Cloud Search, Google Voice, Lens и другими службами. Google сообщил, что к вечеру все они вернулись в норму. Компания пообещала провести тщательный анализ инцидента и представить отчёт после завершения расследования.
Массовые жалобы появились на платформе DownDetector. В разгар сбоя Spotify зафиксировал более 40 000 жалоб, Discord — более 11 000, а сбои на платформах Snapchat, Twitch, Anthropic, Shopify и других также активно обсуждались в соцсетях. На X пользователи шутили «Это конец интернета?», несмотря на то что восстановление началось уже спустя несколько часов.
В итоге, к позднему вечеру в четверг большинство систем вернулись в нормальный режим. В Google отметили окончание глобального сбоя и восстановление основных продуктов, включая Workspace‑службы. Исследование причин и механизмов сбоев ведётся, а результаты будут опубликованы позже.
В свете этого события стало понятно наглядное влияние монокультурных инфраструктур: зависимость множества сервисов от общих облачных платформ создала эффект домино. Эксперты отмечают важность диверсификации поставщиков и создание резервных каналов для критичных систем.
Обновлено:
14 июня на сайте своей облачной платформы компания Google представила отчет о произошедшем глобальном отключении своих интернет-сервисов.
По данным корпорации, этот сбой произошел 12 июня примерно в 20:50 мск. Для решения большинства возникших проблем специалистам Google понадобилось примерно три часа.
В отчете сообщается, что причиной глобального отключения стало обновление безопасности для служб API Google и Google Cloud. Службы обновились еще 29 мая, но ошибочные инструкции в программном коде, которые вызвали сбой, применились только спустя две недели.
По мнению составителей отчета, программа, вызвавшая сбой, содержала сразу две ошибки. Помимо непосредственно ошибочных инструкций в коде, вторая ошибка заключалась в том, что разработчики не пометили эти инструкции, как несущие новый функционал. В отчете утверждается, что такая отметка на коде могла бы помочь обнаружить проблему еще на этапе подготовки.
«Мы приносим свои глубочайшие извинения за последствия, которые повлек за собой этот сбой. <…> Мы приносим извинения за то, что это повлияло не только на бизнес наших клиентов и их пользователей, но и на доверие к нашим системам», — говорится в отчете.
С заботой о вашей безопасности, команда Origin Security