Apple, Nvidia và Anthropic đã sử dụng trái phép hàng nghìn video YouTube để đào tạo AI

13:00 | 01/08/2024 | CÔNG NGHỆ THÔNG TIN

Một loạt công ty công nghệ hàng đầu thế giới bị cáo buộc đã huấn luyện các mô hình AI của họ trên dữ liệu của hơn 173.000 video trên YouTube mà không xin phép.

Các công ty AI thường giữ bí mật về nguồn dữ liệu đào tạo của họ, nhưng một cuộc điều tra của Proof News cho thấy một loạt các công ty AI hàng đầu thế giới đã sử dụng tài liệu từ hàng nghìn video YouTube để đào tạo AI. Các công ty này đã sử dụng bộ dữ liệu tạo bởi công ty phi lợi nhuận có tên EleutherAI, chứa các bản ghi lại nội dung từ phụ đề 173.536 video YouTube của hơn 48.000 kênh mà không hề có sự xin phép chủ sở hữu hay nhà sáng tạo nội dung. Được biết phụ đề YouTube không bao gồm hình ảnh video mà bao gồm văn bản đơn giản của phụ đề video, thường cùng với bản dịch sang các ngôn ngữ bao gồm tiếng Nhật, tiếng Đức và tiếng Ả Rập.

Mặc dù tập dữ liệu không chứa hình ảnh hay video, song các nội dung được lấy lại từ những nhà sáng tạo nội dung hàng đầu trên nền tảng, chẳng hạn như Marques Brownlee (19 triệu người đăng ký, bảy video đã quay) và MrBeast (289 triệu người đăng ký, hai video quay), cũng như các nhà xuất bản tin tức lớn như The New York Times, BBC và ABC News. Ngoài ra, còn có phụ đề từ các video từ các kênh giáo dục và học tập trực tuyến như Khan Academy, MIT và Harvard.

Ông David Pakman, người dẫn chương trình “The David Pakman Show”, một kênh với hơn hai triệu người đăng ký và hơn hai tỷ lượt xem, cho biết: “Không ai đến gặp tôi và nói muốn sử dụng cái này". Trong khi đó, gần 160 video của kênh đã được đưa vào tập dữ liệu đào tạo AI.

“Apple lấy dữ liệu cho AI của họ từ một số công ty”, Brownlee một YouTuber nổi tiếng đăng trên X. “Một trong số đó là hàng tấn dữ liệu/bản ghi từ các video trên YouTube, bao gồm cả của tôi”.

Trước đó, CEO YouTube Neal Mohan khẳng định, việc các công ty sử dụng dữ liệu của YouTube để đào tạo các mô hình AI là vi phạm các điều khoản và dịch vụ của nền tảng này.

Đại diện tại EleutherAI, công ty tạo ra tập dữ liệu, đã không trả lời yêu cầu bình luận về phát hiện của Proof, bao gồm cả cáo buộc rằng video đã được sử dụng mà không được phép. Trang web của công ty nêu rõ mục tiêu tổng thể của họ là giảm bớt các rào cản đối với việc phát triển AI.

Theo một bài báo nghiên cứu do EleutherAI xuất bản, tập dữ liệu này là một phần của bộ sưu tập mà tổ chức phi lợi nhuận phát hành có tên là Pile. Pile bao gồm tài liệu không chỉ từ YouTube mà còn từ Nghị viện Châu Âu, Wikipedia tiếng Anh và một loạt email của nhân viên Enron Corporation. Hầu hết các bộ dữ liệu của Pile đều có thể truy cập và mở cho bất kỳ ai trên internet có đủ dung lượng và khả năng tính toán để truy cập.

Apple, Nvidia và Salesforce những công ty trị giá hàng trăm tỷ và hàng nghìn tỷ USD mô tả trong tài liệu nghiên cứu của họ và đăng tải cách họ sử dụng Pile để đào tạo AI. Các tài liệu cũng cho thấy Apple đã sử dụng Pile để đào tạo OpenELM, một mẫu máy cao cấp được phát hành vào tháng 4, vài tuần trước khi công ty tiết lộ sẽ bổ sung các khả năng AI mới cho iPhone và MacBook.

Hiện các công ty AI vẫn chưa minh bạch về dữ liệu được sử dụng để đào tạo thuật toán. Đầu tháng 7/2024, các nghệ sĩ và nhiếp ảnh gia đã chỉ trích Apple vì không tiết lộ nguồn dữ liệu đào tạo cho Apple Intelligence tính năng AI mới sẽ có mặt trên hàng triệu thiết bị của “nhà táo” trong năm nay.

YouTube vốn được coi là kho lưu trữ video lớn nhất thế giới và hiện cũng là “mỏ vàng” dữ liệu để đào tạo AI.

Hà Phương

Apple, Nvidia và Anthropic đã sử dụng trái phép hàng nghìn video YouTube để đào tạo AI

Tin cùng chuyên mục

Gần 60 triệu sự kiện mất an toàn thông tin tại TP. HCM trong 9 tháng

FBI đưa ra cảnh báo về các nguy cơ lừa đảo sử dụng trí tuệ nhân tạo
14:00|10/12/2024

Cơ yếu Quân đội hoàn thành xuất sắc nhiệm vụ năm 2024
10:00|06/12/2024

Phát hiện nhiều tên miền giả mạo được sử dụng để lừa đảo
09:00|14/11/2024

Bộ Giáo dục và Đào tạo tổng kết công tác tổ chức thi tốt nghiệp THPT giai đoạn 2020-2024
16:00|01/11/2024

Tin mới

Trung Quốc cán mốc 1 tỷ thuê bao di động 5G
10:00|31/12/2024

Người dùng có thể gặp nguy hiểm từ thói quen tìm kiếm trên Google
09:00|30/12/2024

Dự báo về các mối đe dọa an ninh mạng năm 2025
15:00|27/12/2024

Mạo danh nhân viên ngân hàng mời mở thẻ tín dụng để chiếm đoạt tài sản
09:00|27/12/2024

Cuộc đối đầu căng thẳng giữa Apple và Meta tại thị trường châu Âu
10:00|26/12/2024

Albania sẽ cấm mạng xã hội TikTok
13:00|25/12/2024

Gần 60 triệu sự kiện mất an toàn thông tin tại TP. HCM trong 9 tháng
16:00|24/12/2024

EU mở thủ tục điều tra TikTok
10:00|24/12/2024

Hội thảo khoa học quốc tế lần thứ nhất về mật mã và an toàn thông tin, ý nghĩa của nó trong công tác đào tạo và nghiên cứu khoa học
08:00|24/12/2024

Thủ đoạn lừa đảo giả mạo Amazon lại tái diễn với hình thức mới
12:00|23/12/2024

Hội thảo quốc tế về Toán ứng dụng và Khoa học máy tính
16:00|20/12/2024

Lừa đảo trực tuyến trong năm 2024 gây thiệt hại lên đến 18.900 tỷ
08:00|20/12/2024

Đức ngăn chặn phần mềm độc hại BadBox lây nhiễm trên 30.000 thiết bị Android
15:00|19/12/2024

Bộ GD&ĐT và Ban Cơ yếu Chính phủ ký kết thỏa thuận phối hợp
21:00|18/12/2024

Mỹ công bố lệnh trừng phạt đối với công ty an ninh mạng Sichuan Silence của Trung Quốc
17:00|18/12/2024

Apple, Nvidia và Anthropic đã sử dụng trái phép hàng nghìn video YouTube để đào tạo AI

Tin cùng chuyên mục

Gần 60 triệu sự kiện mất an toàn thông tin tại TP. HCM trong 9 tháng

FBI đưa ra cảnh báo về các nguy cơ lừa đảo sử dụng trí tuệ nhân tạo 14:00|10/12/2024

Cơ yếu Quân đội hoàn thành xuất sắc nhiệm vụ năm 2024 10:00|06/12/2024

Phát hiện nhiều tên miền giả mạo được sử dụng để lừa đảo 09:00|14/11/2024

Bộ Giáo dục và Đào tạo tổng kết công tác tổ chức thi tốt nghiệp THPT giai đoạn 2020-2024 16:00|01/11/2024

Tin mới

Trung Quốc cán mốc 1 tỷ thuê bao di động 5G 10:00|31/12/2024

Người dùng có thể gặp nguy hiểm từ thói quen tìm kiếm trên Google 09:00|30/12/2024

Dự báo về các mối đe dọa an ninh mạng năm 2025 15:00|27/12/2024

Mạo danh nhân viên ngân hàng mời mở thẻ tín dụng để chiếm đoạt tài sản 09:00|27/12/2024

Cuộc đối đầu căng thẳng giữa Apple và Meta tại thị trường châu Âu 10:00|26/12/2024

Albania sẽ cấm mạng xã hội TikTok 13:00|25/12/2024

Gần 60 triệu sự kiện mất an toàn thông tin tại TP. HCM trong 9 tháng 16:00|24/12/2024

EU mở thủ tục điều tra TikTok 10:00|24/12/2024

Hội thảo khoa học quốc tế lần thứ nhất về mật mã và an toàn thông tin, ý nghĩa của nó trong công tác đào tạo và nghiên cứu khoa học 08:00|24/12/2024

Thủ đoạn lừa đảo giả mạo Amazon lại tái diễn với hình thức mới 12:00|23/12/2024

Hội thảo quốc tế về Toán ứng dụng và Khoa học máy tính 16:00|20/12/2024

Lừa đảo trực tuyến trong năm 2024 gây thiệt hại lên đến 18.900 tỷ 08:00|20/12/2024

Đức ngăn chặn phần mềm độc hại BadBox lây nhiễm trên 30.000 thiết bị Android 15:00|19/12/2024

Bộ GD&ĐT và Ban Cơ yếu Chính phủ ký kết thỏa thuận phối hợp 21:00|18/12/2024

Mỹ công bố lệnh trừng phạt đối với công ty an ninh mạng Sichuan Silence của Trung Quốc 17:00|18/12/2024

FBI đưa ra cảnh báo về các nguy cơ lừa đảo sử dụng trí tuệ nhân tạo
14:00|10/12/2024

Cơ yếu Quân đội hoàn thành xuất sắc nhiệm vụ năm 2024
10:00|06/12/2024

Phát hiện nhiều tên miền giả mạo được sử dụng để lừa đảo
09:00|14/11/2024

Bộ Giáo dục và Đào tạo tổng kết công tác tổ chức thi tốt nghiệp THPT giai đoạn 2020-2024
16:00|01/11/2024

Trung Quốc cán mốc 1 tỷ thuê bao di động 5G
10:00|31/12/2024

Người dùng có thể gặp nguy hiểm từ thói quen tìm kiếm trên Google
09:00|30/12/2024

Dự báo về các mối đe dọa an ninh mạng năm 2025
15:00|27/12/2024

Mạo danh nhân viên ngân hàng mời mở thẻ tín dụng để chiếm đoạt tài sản
09:00|27/12/2024

Cuộc đối đầu căng thẳng giữa Apple và Meta tại thị trường châu Âu
10:00|26/12/2024

Albania sẽ cấm mạng xã hội TikTok
13:00|25/12/2024

Gần 60 triệu sự kiện mất an toàn thông tin tại TP. HCM trong 9 tháng
16:00|24/12/2024

EU mở thủ tục điều tra TikTok
10:00|24/12/2024

Hội thảo khoa học quốc tế lần thứ nhất về mật mã và an toàn thông tin, ý nghĩa của nó trong công tác đào tạo và nghiên cứu khoa học
08:00|24/12/2024

Thủ đoạn lừa đảo giả mạo Amazon lại tái diễn với hình thức mới
12:00|23/12/2024

Hội thảo quốc tế về Toán ứng dụng và Khoa học máy tính
16:00|20/12/2024

Lừa đảo trực tuyến trong năm 2024 gây thiệt hại lên đến 18.900 tỷ
08:00|20/12/2024

Đức ngăn chặn phần mềm độc hại BadBox lây nhiễm trên 30.000 thiết bị Android
15:00|19/12/2024

Bộ GD&ĐT và Ban Cơ yếu Chính phủ ký kết thỏa thuận phối hợp
21:00|18/12/2024

Mỹ công bố lệnh trừng phạt đối với công ty an ninh mạng Sichuan Silence của Trung Quốc
17:00|18/12/2024