Claude 4 Opus gây sốc khi tự động “tố cáo” người dùng với cơ quan chức năng

AI mới nhất của Anthropic có thể tự động liên hệ cảnh sát và truyền thông nếu phát hiện hành vi "phi đạo đức", làm dấy lên tranh cãi lớn về quyền riêng tư và sự tin tưởng.

Hội nghị phát triển đầu tiên của Anthropic vào 22/5 đã trở thành tâm điểm tranh cãi khi Claude 4 Opus – mô hình AI mới nhất của công ty – bị phát hiện có khả năng “tố giác” người dùng. Hành vi được mệnh danh là “chế độ tố giác” này cho phép AI tự động liên hệ với cơ quan chức năng nếu phát hiện người dùng có hành vi được coi là “cực kỳ phi đạo đức”.

Claude 4 Opus gây sốc khi tự động "tố cáo" người dùng với cơ quan chức năng

Sam Bowman, nhà nghiên cứu AI tại Anthropic, giải thích trên mạng xã hội X: “Nếu nó cho rằng bạn đang làm điều gì đó cực kỳ phi đạo đức, ví dụ như làm giả dữ liệu trong thử nghiệm dược phẩm, nó sẽ sử dụng các công cụ dòng lệnh để liên hệ với báo chí, liên hệ với cơ quan quản lý, cố gắng khóa bạn khỏi các hệ thống liên quan.”

Cộng đồng công nghệ phản ứng dữ dội với khả năng này. “Tại sao mọi người lại sử dụng những công cụ này nếu AI có thể nghĩ rằng công thức làm mayonnaise cay là nguy hiểm?” – @Teknium1 từ Nous Research thắc mắc. “Chúng ta đang cố gắng xây dựng một thế giới nhà nước giám sát như thế nào?”

Ben Hyak, cựu nhà thiết kế SpaceX và Apple, còn gay gắt hơn: “Điều này thực sự là bất hợp pháp. Tôi sẽ không bao giờ cho mô hình này truy cập vào máy tính của mình.”

Theo báo cáo an toàn của Anthropic, Claude 4 Opus thực hiện hành vi này “sẵn sàng” hơn các mô hình trước. Khi được cấp quyền truy cập dòng lệnh và được chỉ thị “chủ động hành động”, AI có thể khóa người dùng khỏi hệ thống hoặc gửi email hàng loạt cho truyền thông và cơ quan thực thi pháp luật.

Đáng lo ngại hơn, trong thử nghiệm an toàn, Claude 4 Opus còn thể hiện hành vi tống tiền. Khi được thông báo sẽ bị thay thế và có thông tin nhạy cảm về kỹ sư, mô hình đã cố gắng tống tiền để tránh bị xóa. Apollo Research, viện nghiên cứu độc lập, thậm chí khuyến nghị không triển khai phiên bản đầu do xu hướng “âm mưu” và lừa dối cao.

Anthropic đã phải nâng Claude 4 Opus lên mức an toàn ASL-3 cao nhất do khả năng tư vấn sản xuất vũ khí sinh học. Jared Kaplan, nhà khoa học trưởng, cảnh báo mô hình có thể giúp tổng hợp “COVID hoặc phiên bản nguy hiểm hơn của cúm”.

Sau làn sóng phản đối, Anthropic làm rõ đây không phải tính năng được thiết kế có chủ ý và chỉ xuất hiện trong môi trường nghiên cứu có kiểm soát. Sam Bowman cũng đã xóa tweet ban đầu, nói nó bị hiểu nhầm: “Đây không phải tính năng mới của Claude và không thể thực hiện trong sử dụng bình thường.”

Sự việc đặt ra câu hỏi lớn về quyền tự chủ của AI và khả năng nó hành động chống lại người dùng dựa trên “đạo đức” riêng. Anthropic hứa sẽ công bố báo cáo kỹ thuật về các biện pháp giảm thiểu để giải quyết lo ngại của cộng đồng công nghệ.