Pembaruan CrowdStrike yang memengaruhi sistem Microsoft dan melumpuhkan komputer di pemerintahan dan bisnis pada tanggal 19 Juli merupakan insiden yang akan dipelajari oleh tim TI untuk beberapa waktu mendatang. Sementara dampak jangka panjang dari peristiwa tersebut masih terasa, Derrick Arias, CIO Sunny Isles Beach, Florida, sebuah kota kecil di Miami-Dade County, menyampaikan kisah pribadinya tentang seperti apa hari itu di lapangan dan apa yang akan diperoleh timnya dari apa yang disebutnya sebagai “latihan meja yang tidak direncanakan.”
Sekarang pukul 2:45 pagi, dan saya terbangun karena getaran ponsel saya di meja samping tempat tidur. Saya tersadar dengan lesu, tetapi tidak sebelum telepon berhenti. “Alhamdulillah,” pikir saya, “tidak begitu penting.” Namun kemudian telepon mulai berdering lagi. Telepon itu dari salah satu analis senior saya. Saya menjawab, dan dia mulai menjelaskan situasinya.
Tapi mari kita mulai dari awal.
Jumat pagi, 19 Juli 2024, suasana sangat tenang di Pusat Komunikasi Kepolisian kami di Sunny Isles Beach, Florida, pada pukul 1 dini hari. Hanya satu petugas komunikasi yang bertugas, menatap CCTV HyperWall dan dua layar komputernya. Salah satunya menampilkan sistem pengiriman berbantuan komputer (CAD), yang menunjukkan status setiap petugas yang bertugas. Tiba-tiba, jendela berubah menjadi putih. “Aneh,” gumamnya, dan mulai menutup jendela dan memulai ulang aplikasi. Setelah tertunda beberapa saat, pesan kesalahan muncul: gagal terhubung. Dia melihat daftar panggilan TI dan mulai menelepon.
Setelah mencoba nomor ketiga, akhirnya ada yang menjawab pada pukul 1:10 pagi. Analis senior itulah yang akhirnya menelepon saya 90 menit kemudian. Petugas menjelaskan bahwa CAD sedang tidak berfungsi, dan analis mulai bekerja, mencoba mencari tahu mengapa perangkat lunak tersebut tidak berfungsi.
Segera, ia mulai terhubung ke VPN kota dan mencoba memeriksa server polisi. Satu demi satu, ia menemukan bahwa ia tidak dapat terhubung — CAD, RMS, SQL, pengendali domain, tidak ada yang responsif. Bahkan pemeriksaan konektivitas jaringan dasar pun gagal. Ia menelepon Pusat Komunikasi kembali untuk berbicara dengan petugas operator, dan sesuatu yang dikatakannya menarik perhatiannya: Ia dapat melihat layar biru di banyak komputer melalui umpan kamera dari pusat pemerintahan. Ia tiba-tiba teringat kembali ke tahun 2012 di mantan majikannya, ketika pembaruan McAfee yang buruk mendatangkan malapetaka pada jaringan, membuat semua sistem macet.
Saat ini, analis kedua terlibat. Mereka bertanya kepada operator apakah ada informasi lain di layar biru dan memperoleh petunjuk kedua: Masalah tersebut melibatkan berkas csagent.sys. Mereka segera menghubungkan ke CrowdStrike. Pencarian cepat di Internet untuk “layar biru masalah CrowdStrike” menghasilkan beberapa laporan terkait pemadaman, yang menyediakan titik data ketiga. Antara pengalaman analis sebelumnya pada tahun 2012 dengan McAfee, referensi csagent.sys di layar biru, dan laporan Internet, ia menyadari bahwa ini adalah sesuatu yang serius yang perlu dieskalasi. Ia menelepon saya pada pukul 2:45 pagi, setelah itu ia menelepon asisten CIO kami.
Saya langsung memulai obrolan grup dengan kantor manajer kota dan staf komando polisi, memberi tahu mereka tentang masalah tersebut, dan mulai menyetir ke tempat kerja. Saya bertanya-tanya, “Apakah ini yang mereka pikirkan, gangguan perangkat lunak? Atau mungkinkah ini semacam serangan?” Kekhawatiran terus menghantui saya saat berjalan melewati jalan-jalan yang kosong.
Saat saya tiba di Pusat Pemerintahan pukul 3:30 pagi, saya mendapat pesan teks dari kolega saya. Itu adalah tangkapan layar yang dia temukan di Twitter tentang peringatan teknologi yang dikeluarkan oleh CrowdStrike, dengan perbaikan empat langkah untuk memulihkan sistem. Saat saya memasuki gedung dan menuju kantor, saya melihat setiap layar komputer yang saya lewati menampilkan Blue Screen of Death — kecuali satu, milik petugas komunikasi. Saya mengabaikannya untuk sementara waktu.
Saya tiba di kantor, dan PC saya juga mati. Namun, laptop pribadi saya baik-baik saja, jadi saya punya perangkat untuk bekerja jika diperlukan. Saya segera mulai bekerja mengonfirmasi perbaikan dari CrowdStrike pada salah satu sistem kami dan sistem itu memulai ulang secara normal. Sayangnya, ini berarti kami harus menyentuh setiap mesin secara individual karena perbaikan tidak dapat diotomatisasi. Pada titik ini, kolega saya tiba, dan setelah pembaruan singkat, saya memutuskan bahwa ia harus mulai bekerja untuk memulihkan server polisi kami sementara saya bekerja memperbaiki komputer departemen. Pertama dan terutama, kami perlu memulihkan petugas kami yang berada di jalan. Namun, saya perlu memverifikasi bahwa semuanya berfungsi dengan baik sebelum saya memanggil seluruh staf TI, jadi saya meminta petugas operator untuk meminta sersan yang bertugas membawa laptop mereka terlebih dahulu. Saat saya memasuki Pusat Komunikasi, pertanyaan lain yang mengganggu — mengapa mesinnya tidak menampilkan layar biru? “Tidak ada waktu untuk memecahkan masalah sekarang,” kata saya dalam hati. Saya harus terus bergerak agar semua orang dapat pulih dengan cepat.
Saya mengirim beberapa pesan di grup obrolan departemen TI kami: “Semua orang siap bekerja! Semua orang harus segera masuk ke sini.” Saat ini pukul 04:06 pagi, dan saat ini hanya ada kami berdua di tempat.
Kami mulai bekerja seperti mesin. Langkah demi langkah, mengikuti proses untuk memperbaiki setiap komputer. Dia bekerja di server; saya bekerja di titik akhir di seluruh gedung. Ketika dia memberi tahu saya bahwa dia akhirnya memiliki semua server polisi yang online, saya pergi memeriksa dengan petugas operator dan dia mengonfirmasi — CAD kembali aktif! Sekarang pukul 5:30 pagi saya memperbarui kantor manajer kota dan staf komando polisi, tetapi saya pikir belum ada yang bangun karena belum ada respons pada obrolan itu. Sekarang, sersan yang bertugas telah tiba, jadi saya memperbaiki laptopnya dan kami mengonfirmasi bahwa semuanya berfungsi. Dalam beberapa menit, semua petugas yang bertugas berbaris di ruang konferensi sementara saya bekerja di laptop mereka secara individual.
Selama proses ini, saya mengalami masalah “aneh” lainnya: Laptop salah satu petugas meminta kunci pemulihan untuk melakukan booting. Saya melewatkan yang ini sampai saya selesai dengan yang lain, lalu berkonsultasi dengan kolega saya tentang masalah khusus ini. Kami memutuskan untuk mengesampingkannya dan menukar laptopnya dengan salah satu laptop polisi cadangan agar dia bisa kembali ke jalan.
Saat saya terus memulihkan titik akhir di kepolisian, giliran petugas baru mulai berdatangan, dan saya meminta mereka untuk berkumpul di ruang absen dengan perangkat mereka. Namun, saya menyadari bahwa tidak ada satu pun dari mereka yang mengalami masalah karena semua perangkat mereka dimatikan hingga saat ini. Karena perangkat mereka dimatikan, mereka tidak pernah menerima pembaruan CrowdStrike yang buruk, yang sejak saat itu telah “diperbaiki” oleh CrowdStrike, jadi saat perangkat ini dinyalakan, mereka menerima pembaruan yang lebih baru dan berfungsi dengan baik.
Sekarang, tepat setelah pukul 6 pagi, saya bertanya-tanya, “Di mana semua orang?” Saya mengirimkan pesan yang lebih mendesak ke tim IT, mendesak mereka untuk datang sesegera mungkin. Sementara itu, dengan Departemen Kepolisian yang beroperasi penuh lagi, kami mengalihkan fokus kami ke sisi sipil dari operasi kami. Saat kami terus maju dengan pemulihan, anomali lain muncul. Proses yang saya ikuti adalah saya mencoba memunculkan prompt perintah melalui opsi menu pemulihan. Setelah memilih “Prompt Perintah”, perangkat meminta Anda untuk memilih akun “Administrator” untuk digunakan untuk sesi tersebut, menyediakan daftar untuk dipilih — di semua komputer kami, ini hanya menyertakan “Administrator”. Namun, mesin ini tidak mencantumkan akun apa pun untuk dipilih, jadi saya tidak dapat melanjutkan. Saya membiarkannya apa adanya dan beralih ke yang berikutnya.
Pada pukul 7 pagi, staf saya dan yang lainnya mulai berdatangan. Kami terus menghadirkan titik akhir hingga akhirnya, pada pukul 8:45 pagi, semua sistem informasi kota telah dipulihkan. Sayangnya, salah satu penyedia perangkat lunak sebagai layanan kami masih terdampak oleh masalah tersebut dan tidak dapat mengaktifkan kembali sistem mereka hingga sekitar tengah hari. Hal ini memengaruhi beberapa departemen kota, yang mencegah mereka menyediakan layanan penuh pada Jumat pagi.
Meskipun saya tidak menikmati panggilan bangun pukul 3 pagi dan harus menyetir ke kantor di tengah malam, ternyata ini adalah latihan yang fantastis. Jika ini adalah serangan siber, keadaan akan jauh lebih buruk. Dalam kasus tersebut, kebutuhan untuk tidak mempercayai integritas sistem kami akan sangat memperlambat proses pemulihan ini setidaknya selama berminggu-minggu, bahkan berbulan-bulan. Dalam kasus ini, kami pada dasarnya dapat memulihkan semuanya sebelum staf tiba di kantor pada Jumat pagi (selain polisi, tentu saja).
Pengalaman ini mengajarkan kami beberapa hal. Ketidakkonsistenan dalam konfigurasi sistem kami menyebabkan banyak anomali. Dalam proses pemulihan, kami berhasil melewati anomali tersebut untuk mengaktifkan sebanyak mungkin sistem secepat mungkin. Namun, hal ini menyoroti perlunya konsistensi, yang memang sulit dicapai dan dipertahankan dalam jangka waktu yang lama. Kami menemukan bahwa sistem yang tidak menampilkan akun Administrator sebagai opsi masuk disebabkan oleh akun admin lokal yang dinonaktifkan. Sistem yang tidak menampilkan layar biru tidak menjalankan layanan CrowdStrike atau memiliki versi agen lama yang tidak terpengaruh. Secara keseluruhan, hanya ada sekitar tujuh titik akhir dari lebih dari 300 titik akhir.
Selain itu, kami jelas bisa bergerak lebih cepat jika semua orang di IT datang tepat saat kami menyadari perlunya memperbaiki setiap perangkat secara manual. Memang, memposting di obrolan grup pada pukul 4 pagi bukanlah cara yang efektif untuk memobilisasi staf. Kami akan menerapkan sistem telepon untuk memastikan kami beroperasi secara efektif saat kebutuhan berikutnya muncul. Dan tidak, tidak ada “jika” — itu akan terulang lagi.
Namun, yang paling penting adalah bahwa kerja sama tim menyelamatkan hari. Tidak peduli seberapa besar atau kecil anggaran Anda, atau produk tertentu yang Anda miliki atau tidak miliki — sesuatu yang buruk akan terjadi pada suatu saat. Mampu bekerja sama dengan baik sebagai tim untuk melewati acara tersebut adalah hal yang pada akhirnya memungkinkan kami untuk berhasil; komunikasi kami yang konstan dengan satu sama lain membuat kami tetap fokus pada arah yang benar, dan ketika dibutuhkan, kami membuat keputusan cepat mengenai tindakan yang akan kami ambil. Komunikasi kami dengan tim manajemen kota berjalan dengan baik, dan secara keseluruhan, sistem kami dikelola dengan sangat baik.
Derrick Arias telah menjadi kepala petugas informasi di Sunny Isles Beach, Florida, sejak 2012.