Do thám màn hình từ xa qua micro của webcam
Cụ thể, các nhà nghiên cứu Daniel Genkin (đại học Michigan), Mihir Pattani (đại học Pennsylvania), Roei Schuster (trường Cornell Tech và đại học Tel Aviv), cùng Eran Tromer (đại học Tel Aviv và đại học Columbia) đã trình bày nghiên cứu của mình về kỹ thuật mà họ gọi là Synesthesia với khả năng theo dõi từ xa như sau: kỹ thuật này dò biết nội dung trên màn hình từ xa chỉ dựa vào những âm thanh phụ thuộc vào nội dung phát ra từ màn hình LCD đang theo dõi. Công trình nghiên cứu này được tài trợ bởi Viện An toàn thông tin Check Point tại đại học Tel Aviv và Các Dự án Nghiên cứu Quốc phòng Cao cấp, nhằm xem xét những dạng thức âm thanh của kỹ thuật tấn công Van Eck. Kỹ thuật Van Eck là kỹ thuật lợi dụng những tín hiệu radio phát tán từ các kết nối màn hình, trong khi đó nhóm nghiên cứu lại tận dụng những âm thanh phát ra từ bộ chuyển đổi và các cấu phần điện tử của màn hình LCD.
Những người từng làm việc với màn hình CRT đều quen thuộc với thuật ngữ “coil whine” là các âm thanh lạo xạo phát ra từ màn hình. Tuy màn hình LCD tiêu thụ điện năng ít hơn nhiều so với màn hình CRT nhưng chúng vẫn sinh ra những tiếng ồn tương tự (ở tần số hoàn toàn khác). Do màn hình máy tính hiển thị hình ảnh bằng cách gửi tín hiệu tới mỗi điểm ảnh trên từng dòng với cường độ khác nhau nên điện năng gửi tới mỗi điểm ảnh thay đổi khi màn hình thay đổi hình ảnh. Sự thay đổi cường độ của các điểm ảnh tạo nên sự thay đổi trong âm thanh mà nguồn điện của màn hình sinh ra, từ đó làm lộ thông tin về hình ảnh đang được hiển thị. Các thuật toán học máy có thể xử lý thông tin để lấy được chi tiết về những hình ảnh đó. Âm thanh của màn hình có thể được ghi lại bằng nhiều cách khác nhau như: qua microphone của chính thiết bị hay của webcam gắn vào để dùng cho các cuộc nói chuyện qua Skype, Google Hangouts hay các ứng dụng tương tự; thông qua một thiết bị gần đó như Google Home hay Amazon Echo; qua một điện thoại thông minh ở gần; hay với một microphone parabol từ khoảng cách nhỏ hơn 10 mét. Ngay cả một chiếc microphone tương đối rẻ cũng có thể ghi lại âm thanh phát ra từ màn hình – dù con người rất khó nghe được những âm thanh đó. Những âm thanh ghi lại có thể được các thuật toán máy học giải mã.
Các nhà nghiên cứu bắt đầu bằng việc cố gắng nhận biết những mẫu đơn giản, lặp lại. Họ tạo một chương trình đơn giản, hiển thị các sọc trắng có độ dày bằng nhau, chen giữa là những sọc đen. Những sọc đen trắng giống “ngựa vằn” đó có khoảng cách khác nhau, đo bằng số điểm ảnh giữa chúng. Khi chương trình chạy, nhóm nghiên cứu ghi lại âm thanh mà màn hình Soyo DYLM2086 phát ra. Với mỗi khoảng cách giữa các sọc khác nhau, tần số của siêu âm phát ra thay đổi theo cách có thể dự đoán được. Sự thay đổi của sóng âm chỉ cung cấp dữ liệu về mật độ trung bình của một dòng cụ thể nên không thể dựa vào đó để đoán được nội dung của màn hình. Tuy nhiên, bằng việc áp dụng thuật toán máy học có giám sát trong 3 kiểu tấn công khác nhau, các nhà nghiên cứu cho thấy họ có thể trích xuất một lượng thông tin đáng kinh ngạc về nội dung của màn hình. Sau khi học, một bộ phân loại do mạng nơ-rơn tạo ra có thể xác định chính xác website thuộc nhóm Alexa top 10 nào đang được hiển thị trên màn hình dựa vào những âm thanh thu được từ màn hình trong một cuộc gọi Google Hangouts, với độ chính xác 96,5%.
Trong thử nghiệm thứ hai, các nhà nghiên cứu có thể biết được phím nào trong bàn phím ảo trên màn hình được “gõ”, khi màn hình ở chế độ hiển thị dọc (chế độ điển hình của các loại điện thoại và máy tính bảng), với độ chính xác 96,4% khi các phím được gõ cách nhau từ 1-3 giây. Trong chế độ hiển thị ngang, độ chính xác của bộ phân loại thấp hơn nhiều, với tỷ lệ thành công lần đầu chỉ khoảng 40,8%. Dù vậy, từ được gõ chính xác nằm trong ba lựa chọn hàng đầu đạt 71,9% với chế độ hiển thị nằm ngang, và điều đó có nghĩa là phân tích kỹ hơn của con người có thể vẫn đem lại kết quả chính xác (ở chế độ hiển thị dọc, từ được gõ chính xác nằm trong ba lựa chọn hàng đầu đạt 99,6%).
Trong thử nghiệm thứ ba, các nhà nghiên cứu dùng thuật toán máy học có chỉ dẫn để lấy được văn bản hiển thị trên màn hình dựa vào âm thanh ghi âm. Thử nghiệm tập trung vào một tập thử nghiệm với 100 từ tiếng Anh và cũng dùng những thiết lập lý tưởng: tất cả các ký tự là chữ hoa (với kiểu phông Fixedsys Excelsior và chiều ngang của mỗi ký tự là 175 điểm ảnh) màu đen trên màn hình trắng. Kết quả thu được rất khả quan: tỷ lệ thành công biến động chuỗi ký tự trong khoảng 88% đến 98%, riêng ký tự cuối thì độ chính xác chỉ là 75%. Trong 100 lần ghi âm để thử nghiệm thì chỉ có hai lần quá trình tiền xử lý có lỗi. Trong 56 lần, từ có khả năng nhất trong danh sách được đoán đúng. Trong 72 lần, từ đoán đúng nằm trong danh sách năm từ có khả năng xuất hiện nhất.
Tuy các thử nghiệm mới chỉ được thực hiện với một kiểu màn hình duy nhất, các nhà nghiên cứu khẳng định rằng tấn công với những kiểu màn hình khác nhau là khả thi, họ dùng kết nối từ xa để hiển thị cùng một hình ảnh trên màn hình ở xa và ghi lại âm thanh để có thể dựa vào đó điều chỉnh phương thức suy đoán.
Việc sử dụng kênh ghi âm để theo dõi từ xa còn khá nhiều hạn chế để có thể áp dụng trong thực tế nhưng tiềm năng của kiểu tấn công này sẽ tiếp tục tăng lên khi mọi người ngày càng sử dụng thiết bị di động tích hợp microphone nhiều hơn, với một vài kiểu cỡ màn hình. Việc giảm thiểu rủi ro sẽ đòi hỏi thay đổi công nghệ màn hình. Vì thế, tuy mới chỉ là một nguy cơ ít có khả năng xảy ra nhưng những người làm việc với dữ liệu nhạy cảm sẽ phải thận trọng hơn khi sử dụng những ứng dụng như Google Hangouts trong lúc dữ liệu hiển thị trên màn hình.
Nguyễn Anh Tuấn
Theo Ars Technica