Vào ngày 19 tháng 7 năm 2024, CrowdStrike đã cố gắng cập nhật “Falcon Sensor” nhằm phát hiện mối đe dọa theo thời gian thực và bảo vệ thiết bị đầu cuối, nhưng điều này đã dẫn đến sự cố cho hệ thống, ảnh hưởng đến 8,5 triệu thiết bị chạy Windows Microsoft, gây ra gián đoạn IT và ảnh hưởng hệ thống vận hành trên toàn thế giới. Mặc dù sự cố này không phải do tấn công mạng hoặc phần mềm độc hại, nhưng nó nhấn mạnh tầm quan trọng của việc có một chiến lược sao lưu và phục hồi thảm họa toàn diện và đáng tin cậy để ngăn chặn gián đoạn trong hoạt động kinh doanh.
Tác giả: Tony Lin, Product Marketing Manager, Synology
CrowdStrike gây ra tác động toàn cầu
Sự cố đầu tiên được phát hiện tại Úc, nơi “màn hình xanh chết chóc” lan rộng trên các thiết bị Windows trên toàn cầu, gây ra sự gián đoạn không chỉ cho người dùng mà còn cho các công ty và nhà cung cấp dịch vụ quan trọng. Báo cáo về sự gián đoạn đã xuất hiện từ nhiều lĩnh vực khác nhau, bao gồm tài chính, IT, sản xuất, và nhiều lĩnh vực khác. Đến chiều, khoảng 2.600 chuyến bay ở Hoa Kỳ đã bị hủy, trong khi hơn 4.200 chuyến bay trên toàn cầu bị ảnh hưởng và phải chuyển sang làm thủ tục thủ công, theo Wall Street Journal.
Thời gian khôi phục (RTO) ảnh hưởng đến hoạt động kinh doanh như thế nào
Sau sự cố, CrowdStrike đã hỗ trợ kỹ thuật và phát hành bản vá để khôi phục hệ thống. Tuy nhiên, nhiều hệ thống của các tổ chức không thể tự động khôi phục thông qua chương trình sửa lỗi. Khi điều này xảy ra, quản trị viên IT phải khởi động từng thiết bị bị ảnh hưởng vào chế độ an toàn và xóa các bản cập nhật có vấn đề của CrowdStrike.
Mặc dù Microsoft đã giới thiệu một giải pháp “giảm thiểu quy trình” vào ngày hôm sau, giúp tự động xóa các tệp lỗi, quá trình khôi phục vẫn rất tốn thời gian khi phải khởi động từng thiết bị vào WinPE qua USB. Thời gian ngừng hoạt động dẫn đến gián đoạn hoạt động, mất năng suất, chi phí phát sinh, tăng rủi ro tuân thủ và cuối cùng là trải nghiệm khách hàng tiêu cực cùng với uy tín công ty bị tổn hại.
Xây dựng kế hoạch bảo vệ dữ liệu mạnh mẽ để duy trì hoạt động liên tục của doanh nghiệp
- Sao lưu toàn diện: Doanh nghiệp cần triển khai chiến lược sao lưu thường xuyên, bao gồm tất cả nguồn dữ liệu và thiết bị để tránh tình trạng dữ liệu bị cô lập. Điều này đặc biệt quan trọng với những doanh nghiệp hoạt động trên nhiều nền tảng hoặc công cụ khác nhau.
- Thường xuyên diễn tập phục hồi dữ liệu: Chúng ta không thể dự đoán trước sự cố về thiết bị hay hệ thống, vì vậy cần liên tục kiểm tra khả năng khôi phục của dữ liệu đã sao lưu để đảm bảo kế hoạch khắc phục thảm họa luôn hiệu quả và sẵn sàng.
- Khôi phục VM tức thời: Ảo hóa dịch vụ và khôi phục hoạt động nhanh chóng giúp giảm thiểu thời gian gián đoạn và đảm bảo doanh nghiệp luôn duy trì hoạt động liên tục.
- Khôi phục đa nền tảng: Trong sự cố của CrowdStrike, chỉ một nền tảng bị ảnh hưởng. Doanh nghiệp có thể giảm rủi ro mất dữ liệu bằng cách đảm bảo rằng tất cả dữ liệu, ứng dụng, và hệ thống có thể được khôi phục trên nhiều nền tảng khác nhau.
- Sao lưu và khôi phục từ bên ngoài (off-site): Ngoài việc sao lưu dữ liệu tại chỗ, việc sao lưu dữ liệu từ bên ngoài còn giúp giảm thiểu rủi ro mất dữ liệu. Trong sự cố của CrowdStrike, nếu công ty có một bản sao lưu trên đám mây, họ có thể dễ dàng khôi phục dịch vụ từ bản sao lưu này.
Sao lưu là chìa khóa để phục hồi dữ liệu
Có một kế hoạch sao lưu và khôi phục thảm họa an toàn là chìa khóa để đảm bảo khả năng phục hồi dữ liệu và là bước quan trọng đối với bất kỳ doanh nghiệp nào đang theo đuổi chuyển đổi số. Sự cố của CrowdStrike nhấn mạnh rõ ràng tầm quan trọng của việc thiết lập một chiến lược sao lưu mạnh mẽ. Ngoài ra, doanh nghiệp cần thường xuyên kiểm tra sao lưu để đảm bảo tính liên tục của hệ thống trong bối cảnh đầy những tình huống bất ngờ.