Lợi dụng tính năng chuyển giọng nói thành văn bản để vượt qua reCAPTCHA của Google
Nguồn gốc của CAPTCHA
Được giới thiệu vào năm 2014, CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) là một loại thử thách phản hồi được thiết kế để bảo vệ chống lại việc tạo tài khoản tự động và lạm dụng dịch vụ, bằng cách đưa ra cho người dùng một câu hỏi mà con người dễ giải nhưng khó đối với máy tính.
Thuật toán được sử dụng để tạo CAPTCHA phải được công khai mặc dù nó có thể được cấp bằng sáng chế. Điều này được thực hiện để chứng minh rằng việc phá vỡ nó cần một giải pháp trong lĩnh vực trí tuệ nhân tạo chứ không chỉ là khám phá ra thuật toán, có thể thu được thông qua kỹ thuật đảo ngược hoặc các phương tiện khác.
Dịch vụ reCAPTCHA là phiên bản phổ biến của công nghệ CAPTCHA đã được Google mua lại vào năm 2009. Gã khổng lồ tìm kiếm sau đó đã phát triển và phát hành phiên bản thứ ba của reCAPTCHA vào tháng 10/2018. Phiên bản này loại bỏ hoàn toàn vấn đề gây khó chịu cho người dùng bằng các thử thách với một điểm số (0 đến 1) được trả lại dựa trên hành vi của người dùng truy cập trên trang web. Tất cả đều không có sự tương tác của người dùng.
Vượt qua reCAPTCHA bằng chính dịch vụ của Google
Nhà nghiên cứu Nikolai Tschacher đã công bố những phát hiện của mình với một chứng minh về việc vượt qua reCAPTCHA âm thanh vào ngày 02/01/2021.
“Ý tưởng của cuộc tấn công rất đơn giản. Bạn lấy tệp MP3 của reCAPTCHA âm thanh và gửi nó tới API chuyển giọng nói thành văn bản của chính Google. Google sẽ trả lại câu trả lời đúng trong hơn 97% trường hợp", Tschacher cho biết.
Toàn bộ cách thức vượt qua reCAPTCHA xoay quanh nghiên cứu được đặt tên là "unCaptcha", được công bố bởi các nhà nghiên cứu của Đại học Maryland vào tháng 4/2017 nhằm vào phiên bản âm thanh của reCAPTCHA. Tính năng này được tồn tại vì lý do trợ năng, nó đặt ra một thách thức về âm thanh, cho phép những người bị suy giảm thị lực phát hoặc tải xuống mẫu âm thanh và giải quyết câu hỏi.
Để thực hiện cuộc tấn công, tập tin âm thanh được tải về sử dụng công cụ như Selenium và đưa vào một dịch vụ hỗ trợ chuyển hóa âm thanh trực tuyến như Google Speech-to-Text API, kết quả cuối cùng được sử dụng để đánh bại âm thanh CAPTCHA.
Sau thời điểm công bố nghiên cứu, Google đã cập nhật reCAPTCHA vào tháng 6/2018 với tính năng phát hiện bot được cải thiện và hỗ trợ các cụm từ thay vì chữ số, nhưng không đủ để ngăn chặn cuộc tấn công - vì các nhà nghiên cứu đã phát hành "unCaptcha2" như một bằng chứng (Proof of Concept - PoC) với độ chính xác thậm chí còn tốt hơn (91% khi so với 85% của unCaptcha) bằng cách sử dụng "trình nhấp màn hình để di chuyển đến các pixel nhất định trên màn hình và di chuyển xung quanh trang như con người".
Nghiên cứu của Tschacher chỉ ra rằng kỹ thuật vượt qua reCAPTCHA vẫn có hiệu quả với phiên bản reCAPTCHA v3 vì Google đã giữ lại reCAPTCHAv2 như một cách dự phòng. Nhà nghiên cứu đang nỗ lực giữ cho công cụ unCaptcha2 luôn cập nhật và hoạt động với phiên bản mới nhất của reCAPTCHA.
Với reCAPTCHA được sử dụng bởi hàng trăm nghìn trang web để phát hiện lưu lượng truy cập lạm dụng và tạo tài khoản bot, nghiên cứu này là một lời nhắc nhở rằng nó không phải lúc nào cũng an toàn và về những hậu quả đáng kể nếu không chú ý đến.
Đăng Thứ (The Hacker News)