Reddit kiện Anthropic vì sử dụng dữ liệu trái phép để huấn luyện AI Claude

Reddit đã chính thức khởi kiện công ty AI Anthropic tại tòa án California, cáo buộc startup này sử dụng trái phép hàng triệu dữ liệu người dùng để huấn luyện chatbot Claude mà không trả một xu nào. Vụ kiện được đánh giá là cuộc đối đầu pháp lý quan trọng đầu tiên giữa một “ông lớn” công nghệ và nhà cung cấp mô hình AI về quyền sở hữu dữ liệu.

Theo đơn kiện được nộp ngày 4/6 tại Tòa án Cấp cao San Francisco, Reddit cáo buộc Anthropic đã “cố tình khai thác dữ liệu cá nhân của người dùng Reddit mà không hề xin phép”. Đặc biệt nghiêm trọng, platform mạng xã hội này cho rằng Anthropic đã truy cập bất hợp pháp vào máy chủ của họ hơn 100.000 lần kể từ tháng 7/2024, ngay cả sau khi tuyên bố đã ngừng thu thập dữ liệu.

“Chúng tôi sẽ không dung thứ cho những thực thể trục lợi như Anthropic khai thác thương mại nội dung Reddit trị giá hàng tỷ đô la mà không mang lại bất kỳ lợi ích nào cho cộng đồng người dùng hay tôn trọng quyền riêng tư của họ”, Ben Lee – Giám đốc pháp lý của Reddit khẳng định.

Trong bối cảnh ngành AI đang bùng nổ, dữ liệu trở thành “vàng đen” của thời đại số. Reddit, với kho dữ liệu khổng lồ từ gần 20 năm hoạt động và hơn 100 triệu người dùng hoạt động hàng ngày, đã trở thành mục tiêu hấp dẫn cho các công ty AI. Nền tảng này đã ký thỏa thuận cấp phép dữ liệu với OpenAI và Google, nhưng Anthropic lại bị cáo buộc “từ chối tham gia” vào bất kỳ cuộc đàm phán nào.

Đơn kiện đặc biệt nhấn mạnh sự mâu thuẫn trong hình ảnh mà Anthropic xây dựng. Reddit mô tả Anthropic như một công ty AI “nở muộn” tự cho mình là “hiệp sĩ áo trắng của ngành AI” nhưng thực tế lại “hoàn toàn không phải như vậy”. Công ty được thành lập bởi các cựu lãnh đạo OpenAI này thường xuyên nhấn mạnh về tính an toàn và trách nhiệm trong phát triển AI, nhưng hành động được cáo buộc lại đi ngược lại với những cam kết này.

Anthropic hiện được định giá 61,5 tỷ USD sau vòng gọi vốn tháng 3/2025 và được Amazon hỗ trợ mạnh mẽ. Tuy nhiên, đại diện công ty đã bác bỏ các cáo buộc và tuyên bố: “Chúng tôi không đồng ý với các tuyên bố của Reddit và sẽ bảo vệ mình một cách mạnh mẽ”.

Vụ kiện này đánh dấu một bước ngoặt quan trọng trong cuộc chiến pháp lý đang gia tăng xung quanh việc sử dụng dữ liệu để huấn luyện AI. Trước đó, nhiều nhà xuất bản và tác giả đã khởi kiện các công ty AI, bao gồm The New York Times kiện OpenAI và Microsoft, hay nhóm tác giả do Sarah Silverman dẫn đầu kiện Meta.

Reddit đang yêu cầu Anthropic bồi thường thiệt hại, hoàn trả số tiền mà công ty đã thu được từ việc sử dụng trái phép dữ liệu, và ra lệnh cấm tiếp tục sử dụng nội dung của platform. Vụ việc cũng phản ánh áp lực ngày càng tăng đối với các công ty AI trong việc trả phí hợp lý cho dữ liệu huấn luyện, thay vì “miễn phí” như trước đây.

Với việc Reddit đã IPO năm 2024 và hiện có vốn hóa thị trường khoảng 22 tỷ USD, việc bảo vệ quyền sở hữu dữ liệu không chỉ là vấn đề nguyên tắc mà còn là nguồn thu nhập quan trọng. CEO OpenAI Sam Altman, người sở hữu 8,7% cổ phần Reddit trị giá hơn 1 tỷ USD, chưa đưa ra bình luận về vụ việc.

Kết quả của vụ kiện này có thể tạo tiền lệ pháp lý quan trọng, định hình cách thức các công ty AI tiếp cận và sử dụng dữ liệu trong tương lai, đồng thời ảnh hưởng đến toàn bộ hệ sinh thái phát triển trí tuệ nhân tạo toàn cầu.