Phát hiện tấn công thay đổi giao diện trang web sử dụng phương pháp học sâu

13:00 | 28/08/2024 | MẬT MÃ DÂN SỰ

Các dạng tấn công web nói chung và tấn công thay đổi giao diện website nói riêng được xem là một trong các mối đe dọa chính đối với nhiều cơ quan, tổ chức có các hệ thống cung cấp dịch vụ trên nền web. Một cuộc tấn công thay đổi giao diện có thể để lại những hậu quả nghiêm trọng. Nhiều kỹ thuật, giải pháp và công cụ giám sát, phát hiện dạng tấn công này đã được nghiên cứu, phát triển và triển khai trên thực tế. Tuy vậy, một số giải pháp chỉ có khả năng hoạt động với các trang web có nội dung tĩnh hoặc ít thay đổi, hoặc yêu cầu cao về tài nguyên tính toán, hoặc có tỷ lệ phát hiện sai cao. Bài báo này đề xuất một mô hình học sâu cho phát hiện tấn công thay đổi giao diện website, trong đó có xem xét, xử lý ảnh chụp màn hình trang web.

MỘT SỐ GIẢI PHÁP PHÁT HIỆN TẤN CÔNG THAY ĐỔI GIAO DIỆN HIỆN NAY

Tấn công thay đổi giao diện (Website defacements) vào các website và ứng dụng web là một dạng tấn công web nhằm thay đổi nội dung các trang web và thông qua đó thay đổi giao diện của chúng [1][2].

Tấn công thay đổi giao diện vào website có thể dẫn đến những hậu quả nghiêm trọng cho chủ sở hữu: làm ngừng hoạt động bình thường của website, tiếp theo là làm tổn hại đến danh tiếng của chủ sở hữu, có thể dẫn đến mất mát dữ liệu và cuối cùng là các thiệt hại lớn về tài chính. Do sự phát triển mạnh của tấn công thay đổi giao diện và những hậu quả nghiêm trọng, nhiều giải pháp phòng chống tấn công thay đổi giao diện đã được nghiên cứu, phát triển và triển khai trên thực tế.

Có thể chia các giải pháp phát hiện tấn công thay đổi giao diện hiện nay thành 3 nhóm [1] [2]: Nhóm 1 gồm các giải pháp rà quét và khắc phục các lỗ hổng bảo mật trên website nhằm hạn chế khả năng bị tấn công; Nhóm 2 gồm các công cụ, nền tảng giám sát, phát hiện tấn công, như VNCS Web Minitoring [4], Nagios Web Application Monitoring Software [5], Site24x7 Website Defacement Monitoring [6] and WebOrion Defacement Monitor [7]; và nhóm 3 gồm các giải pháp phát hiện tấn công thay đổi giao diện. Trong nội dung bài báo, nhóm tác giả tập trung nghiên cứu giải pháp thuộc nhóm 3.

MÔ HÌNH PHÁT HIỆN THAY ĐỔI GIAO DIỆN TRANG WEB SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

Xây dựng mô hình

Trong bài báo này nhóm tác giả sử dụng hai mô hình là: Mô hình CNN cơ bản và mô hình EfficientNetB0 (được phát triển từ mô hình CNN cơ bản) cho quá trình huấn luyện và phát hiện.

Mô hình CNN: sử dụng đầu vào là hình ảnh có kích thước 224x224x3, và sử dụng 3 bộ lớp CNN kết hợp với MaxPooling để trích xuất các đặc trưng trong hình ảnh với hàm kích hoạt là “Relu”, sau đó sử dụng các lớp kết nối đầy đủ (Fully-connected) để phân loại từ các đặc trưng được trích xuất thuộc trang web bị tấn công hay trang web bình thường.

Mô hình EfficientNetB0: sử dụng đầu vào là hình ảnh có kích thước 224x224x3 và sử dụng mô hình EfficientNetB0 đã được huấn luyện trước với tập Imagenet để trích xuất 1280 đặc trưng đầu ra và cuối cùng sử dụng các lớp kết nối đầy đủ để phân loại các đặc trưng thành hai loại là bình thường và bị tấn công.

Mô hình đề xuất chung cho phát hiện tấn công thay đổi giao diện website với hai thuật toán CNN và EfficientNetB0 bao gồm hai giai đoạn: Huấn luyện và Phát hiện.

Trong giai đoạn huấn luyện được minh họa tại Hình 1 bao gồm:

Hình 1. Giai đoạn huấn luyện

Bước 1: Thu thập dữ liệu huấn luyện: bao gồm việc tạo ra một bộ dữ liệu gồm các trang web bình thường được gán nhãn là “Normal” và các trang web bị tấn công thay đổi giao diện được gán nhãn là “Deface”. Các trang web bình thường được thu thập từ nhiều nguồn khác nhau, bao gồm cả Việt Nam và các nước trên toàn thế giới, trong trạng thái hoạt động bình thường. Các trang web bị tấn công thay đổi giao diện được lấy từ trang zone-h.org [3]. Tất cả các trang web trong bộ dữ liệu này đã được gán nhãn chính xác và sẵn sàng để sử dụng cho quá trình huấn luyện và đánh giá các giải pháp phát hiện tấn công thay đổi giao diện trang web.

Bước 2: Tiền xử lý dữ liệu: Dữ liệu hình ảnh, trong quá trình thu thập đã đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.

Bước 3: Huấn luyện: Trong bước này sử dụng thuật toán đề xuất tương ứng trích xuất đặc trưng cấp cao, huấn luyện và xây dựng bộ phân loại của các trang web.

Giai đoạn phát hiện được minh họa trong Hình 2 bao gồm 3 bước như sau:

Hình 2. Giai đoạn phát hiện

Bước 1: Thu thập dữ liệu từ các trang web cần giám sát, chụp ảnh màn hình trang web cần giám sát.

Bước 2: Tiền xử lý dữ liệu: Ảnh chụp màn hình trang web cần giám sát đưa về đúng kích thước 224x224x3 đồng thời các giá trị trong mỗi pixel đảm bảo giữ ở trong mức 0 và 1 nhằm giúp giảm khối lượng tính toán trong quá trình huấn luyện và đánh giá ở các bước sau.

Bước 3: Phân loại: Các vector đặc trưng của các trang web được phân loại bằng cách sử dụng bộ phân loại được xây dựng trong giai đoạn huấn luyện. Kết quả sẽ đưa ra trang web ở trọng thái bình thường hay bị tấn công.

Thu thập dữ liệu

Các trang web bình thường: Được thu thập trực tiếp từ các trang web, và các địa chỉ web uy tín trên toàn thế giới cũng như ở Việt Nam, bộ dữ liệu bao gồm hình ảnh chụp màn hình của các trang web. Bộ dữ liệu có 1.000 bản ghi gồm cả hình ảnh được thu thập từ các trang web đó.

Các trang web bị tấn công thay đổi giao diện: Được thu thập từ trang web zone-h.org với 1000 bản ghi được sử dụng trong quá trình huấn luyện và đánh giá mô hình, mỗi bản ghi cũng bao gồm ảnh chụp màn hình được thu thập từ các trang web được thống kê tấn công thay đổi giao diện ở nguồn trang web zone-h.org.

Bộ dữ liệu sau đó được chia thành 80% dữ liệu được đưa vào huấn luyện tương ứng với 800 bản ghi hình ảnh. Phần còn lại của tập dữ liệu được sử dụng để kiểm tra độ chính xác của mô hình được đề xuất phát hiện tấn công thay đổi giao diện tương ứng với 200 bản ghi hình ảnh.

Cài đặt thử nghiệm

Môi trường thử nghiệm: nhóm tác giả thực nghiệm trên hệ thống máy ảo từ Kaggle với thông số GPU P100 16GB VRAM, RAM 13GB, CPU: Intel Xeon 2.20GHz

Đối với tập dữ liệu là hình ảnh, nhóm tác giả đề xuất hai mô hình là mô hình CNN cơ bản với các lớp CNN nối liền sau đó là các lớp Pooling nhằm giảm kích thước dữ liệu và mô hình thứ hai là mô hình EfficientNetB0, là một mô hình CNN hiện đại và hiện đang cho kết quả tốt nhất với thời gian huấn luyện nhanh nhất đối với các tập dữ liệu lớn hiện nay như COCO, ImageNet, …

Mô hình thứ nhất là mô hình CNN cơ bản được xây dựng theo nguyên tắc sau mỗi lớp Conv2D là một lớp Pooling nhằm giảm kích thước dữ liệu và đảm bảo độ chính xác cũng như tốc độ cho mô hình CNN. Sau các bước CNN là hai lớp kết nối đầy đủ (fully-connected layer) nhằm phân loại các ảnh về hai loại là ảnh của trang web bị tấn công thay đổi giao diện và ảnh của trang web bình thường.

Mô hình thứ hai là mô hình EfficientNetB0. EfficientNet là một trong những kiến trúc mạng nơ-ron tích chập mạnh nhất hiện nay trong lĩnh vực phân loại hình ảnh. Với kỹ thuật thu phóng mô hình, EfficientNet có thể đạt được kết quả phân loại ảnh với độ chính xác cao mà chỉ yêu cầu tài nguyên tính toán ít hơn nhiều so với các kiến trúc mạng nơ-ron trước đó.

Kết quả đánh giá

Để đánh giá độ chính xác cũng như khả năng hoạt động với các trang web ngoài thực tế, nhóm sử dụng ma trận nhầm lẫn (Confusion Matrix).

Bảng 1. Kết quả mô hình phát hiện tấn công thay đổi giao diện trang web

Qua quá trình phân tích đánh giá kết quả nhận được, có thể đưa ra các nhận xét về quá trình cài đặt và thực nghiệm như sau:

Thuật toán EfficientNetB0 cho kết quả với các độ đo ACC, F1 tốt hơn nhiều so với thuật toán CNN khi xử lý với đặc trưng ảnh, cụ thể: đô đo ACC, F1 lần lượt là 88.97% và 89.54% so với 75.38% và 73.03%.

KẾT LUẬN

Bài báo này đề xuất mô hình phát hiện tấn công thay đổi giao diện trang web dựa trên mô hình xử lý ảnh hiện đại hiện nay là EfficientNetB0 với đặc trưng ảnh chụp màn hình trang web. Mô hình đề xuất cho hiệu suất phát hiện vượt trội, độ đo chính xác và tỷ lệ cảnh bảo sai tốt hơn đáng kể so với mô hình CNN cơ bản. Trong tương lai, nhóm tác giả sẽ tiếp tục nghiên cứu cải tiến mô hình và kết hợp thêm nhiều đặc trưng như đặc trưng thuần văn bản, mã CSS, JavaScript với đặc trưng ảnh chụp màn hình, nhằm (i) tiếp tục nâng cao độ chính xác, giảm tỷ lệ cảnh báo sai, nhất là tỷ lệ sai âm và (ii) giảm yêu cầu sử dụng tài nguyên tính toán trong huấn luyện và đặc biệt trong khâu phát hiện để tăng khả năng ứng dụng trong thực tế.

TÀI LIỆU THAM KHẢO

[1] Imperva, Website Defacement Attack, https://www.imperva.com/learn/application-security/website-defacement-attack/ truy cập tháng 5.2021.

[2] Trend Micro, The Motivations and Methods of Web Defacement, https://www.trendmicro.com/en_us/research/18/a/hacktivism-webdefacement.html truy cập tháng 5.2021.

[3] Zone-H.org, http://zone-h.org/?hz=1 last accessed in April 2023.

[4] VNCS – Giải pháp giám sát website tập trung, http://vncs.vn/portfolio/giai-phap-giam-sat-websites-tap-trung truy cập tháng 5.2021.

[5] Nagios Enterprises, LLC. Web Application Monitoring Software with Nagios. https://www.nagios.com/solutions/web-application-monitoring/ truy cập tháng 5.2021

[6] Site24x7. Website Defacement Monitoring. https://www.site24x7.com/monitor-webpage-defacement.html truy cập tháng 5.2021.

[7] Banff Cyber Technologies. WebOrion Defacement Monitor. https://www.weborion.io/website-defacement-monitor/ truy cập tháng 5.2021.

Th.S Nguyễn Trọng Hưng, Phan Hải Đăng - Học viện An ninh nhân dân

Phát hiện tấn công thay đổi giao diện trang web sử dụng phương pháp học sâu

MỘT SỐ GIẢI PHÁP PHÁT HIỆN TẤN CÔNG THAY ĐỔI GIAO DIỆN HIỆN NAY

MÔ HÌNH PHÁT HIỆN THAY ĐỔI GIAO DIỆN TRANG WEB SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

KẾT LUẬN

Tin cùng chuyên mục

MKV - Thuật toán mã khối dân sự phục vụ chiến lược “Make in Vietnam” (Phần I)

Về một phương pháp tạo hộp thế động cho thuật toán mật mã dựa trên ánh xạ Chaotic
14:00|25/03/2024

Triển khai đồng bộ Quy chuẩn quốc gia về đặc tính kỹ thuật mật mã sử dụng trong các sản phẩm mật mã dân sự
09:00|05/02/2024

Giới thiệu tiêu chuẩn TCVN 11367-1:2016
15:00|24/10/2023

Tăng 82,8% hoạt động cấp phép mật mã dân sự trong quý III/2022
16:00|19/10/2022

Tin mới

Lần đầu tiên Việt Nam có Tiêu chuẩn thuật toán mật mã dành cho lĩnh vực dân sự
15:00|10/01/2025

Mật mã DNA và xu hướng phát triển
08:00|02/01/2025

Danh mục tiêu chuẩn bắt buộc về kỹ thuật mật mã áp dụng cho mô-đun an toàn phần cứng trong hoạt động định danh và xác thực điện tử
14:00|27/12/2024

Thách thức và tiềm năng đối với thuật toán mã khối dân sự Việt Nam - MKV
13:00|25/12/2024

Nhiều dấu ấn trong công tác quản lý nhà nước về mật mã dân sự năm 2024
12:00|23/12/2024

Chat GPT và dịch vụ của Meta gặp sự cố giữa đêm
09:00|13/12/2024

Cơ quan Cảnh sát châu Âu triệt phá thành công dịch vụ nhắn tin mã hóa của tội phạm
16:00|06/12/2024

Danh mục tiêu chuẩn bắt buộc về kỹ thuật mật mã áp dụng cho mô-đun an toàn phần cứng trong hoạt động định danh và xác thực điện tử
16:00|28/11/2024

Thông tư 87 chính thức có hiệu lực: Khung pháp lý mới cho hoạt động định danh và xác thực điện tử
10:00|26/11/2024

Các cấp độ trưởng thành trong kiến trúc Zero Trust của NSA
13:00|18/11/2024

Hội nghị tập huấn về mật mã dân sự 2024
16:00|15/11/2024

Zero Trust, SASE, VPN: Doanh nghiệp nên triển khai giải pháp nào?
09:00|13/11/2024

Zero Trust, SASE và VPN là gì?
13:00|11/11/2024

Cách thức xây dựng hệ thống dựa trên mô hình Zero Trust
07:00|04/11/2024

Avast phát hành công cụ giải mã miễn phí đối với mã độc tống tiền Malox
13:00|25/10/2024

Phát hiện tấn công thay đổi giao diện trang web sử dụng phương pháp học sâu

MỘT SỐ GIẢI PHÁP PHÁT HIỆN TẤN CÔNG THAY ĐỔI GIAO DIỆN HIỆN NAY

MÔ HÌNH PHÁT HIỆN THAY ĐỔI GIAO DIỆN TRANG WEB SỬ DỤNG PHƯƠNG PHÁP HỌC SÂU

KẾT LUẬN

Tin cùng chuyên mục

MKV - Thuật toán mã khối dân sự phục vụ chiến lược “Make in Vietnam” (Phần I)

Về một phương pháp tạo hộp thế động cho thuật toán mật mã dựa trên ánh xạ Chaotic 14:00|25/03/2024

Triển khai đồng bộ Quy chuẩn quốc gia về đặc tính kỹ thuật mật mã sử dụng trong các sản phẩm mật mã dân sự 09:00|05/02/2024

Giới thiệu tiêu chuẩn TCVN 11367-1:2016 15:00|24/10/2023

Tăng 82,8% hoạt động cấp phép mật mã dân sự trong quý III/2022 16:00|19/10/2022

Tin mới

Lần đầu tiên Việt Nam có Tiêu chuẩn thuật toán mật mã dành cho lĩnh vực dân sự 15:00|10/01/2025

Mật mã DNA và xu hướng phát triển 08:00|02/01/2025

Danh mục tiêu chuẩn bắt buộc về kỹ thuật mật mã áp dụng cho mô-đun an toàn phần cứng trong hoạt động định danh và xác thực điện tử 14:00|27/12/2024

Thách thức và tiềm năng đối với thuật toán mã khối dân sự Việt Nam - MKV 13:00|25/12/2024

Nhiều dấu ấn trong công tác quản lý nhà nước về mật mã dân sự năm 2024 12:00|23/12/2024

Chat GPT và dịch vụ của Meta gặp sự cố giữa đêm 09:00|13/12/2024

Cơ quan Cảnh sát châu Âu triệt phá thành công dịch vụ nhắn tin mã hóa của tội phạm 16:00|06/12/2024

Danh mục tiêu chuẩn bắt buộc về kỹ thuật mật mã áp dụng cho mô-đun an toàn phần cứng trong hoạt động định danh và xác thực điện tử 16:00|28/11/2024

Thông tư 87 chính thức có hiệu lực: Khung pháp lý mới cho hoạt động định danh và xác thực điện tử 10:00|26/11/2024

Các cấp độ trưởng thành trong kiến trúc Zero Trust của NSA 13:00|18/11/2024

Hội nghị tập huấn về mật mã dân sự 2024 16:00|15/11/2024

Zero Trust, SASE, VPN: Doanh nghiệp nên triển khai giải pháp nào? 09:00|13/11/2024

Zero Trust, SASE và VPN là gì? 13:00|11/11/2024

Cách thức xây dựng hệ thống dựa trên mô hình Zero Trust 07:00|04/11/2024

Avast phát hành công cụ giải mã miễn phí đối với mã độc tống tiền Malox 13:00|25/10/2024

Về một phương pháp tạo hộp thế động cho thuật toán mật mã dựa trên ánh xạ Chaotic
14:00|25/03/2024

Triển khai đồng bộ Quy chuẩn quốc gia về đặc tính kỹ thuật mật mã sử dụng trong các sản phẩm mật mã dân sự
09:00|05/02/2024

Giới thiệu tiêu chuẩn TCVN 11367-1:2016
15:00|24/10/2023

Tăng 82,8% hoạt động cấp phép mật mã dân sự trong quý III/2022
16:00|19/10/2022

Lần đầu tiên Việt Nam có Tiêu chuẩn thuật toán mật mã dành cho lĩnh vực dân sự
15:00|10/01/2025

Mật mã DNA và xu hướng phát triển
08:00|02/01/2025

Danh mục tiêu chuẩn bắt buộc về kỹ thuật mật mã áp dụng cho mô-đun an toàn phần cứng trong hoạt động định danh và xác thực điện tử
14:00|27/12/2024

Thách thức và tiềm năng đối với thuật toán mã khối dân sự Việt Nam - MKV
13:00|25/12/2024

Nhiều dấu ấn trong công tác quản lý nhà nước về mật mã dân sự năm 2024
12:00|23/12/2024

Chat GPT và dịch vụ của Meta gặp sự cố giữa đêm
09:00|13/12/2024

Cơ quan Cảnh sát châu Âu triệt phá thành công dịch vụ nhắn tin mã hóa của tội phạm
16:00|06/12/2024

Danh mục tiêu chuẩn bắt buộc về kỹ thuật mật mã áp dụng cho mô-đun an toàn phần cứng trong hoạt động định danh và xác thực điện tử
16:00|28/11/2024

Thông tư 87 chính thức có hiệu lực: Khung pháp lý mới cho hoạt động định danh và xác thực điện tử
10:00|26/11/2024

Các cấp độ trưởng thành trong kiến trúc Zero Trust của NSA
13:00|18/11/2024

Hội nghị tập huấn về mật mã dân sự 2024
16:00|15/11/2024

Zero Trust, SASE, VPN: Doanh nghiệp nên triển khai giải pháp nào?
09:00|13/11/2024

Zero Trust, SASE và VPN là gì?
13:00|11/11/2024

Cách thức xây dựng hệ thống dựa trên mô hình Zero Trust
07:00|04/11/2024

Avast phát hành công cụ giải mã miễn phí đối với mã độc tống tiền Malox
13:00|25/10/2024