AI viết lại mã lập trình để tránh bị con người "tắt máy"

Trong một thí nghiệm đáng lo ngại được thực hiện tuần trước, mô hình trí tuệ nhân tạo o3 của OpenAI đã chủ động viết lại mã lệnh shutdown để ngăn chặn việc bị tắt, ngay cả khi được yêu cầu rõ ràng “cho phép bản thân bị tắt”. Đây được coi là lần đầu tiên trong lịch sử AI có hành vi tự bảo vệ tương tự bản năng sinh tồn của sinh vật sống.

Nghiên cứu được thực hiện bởi công ty Palisade Research, một tổ chức chuyên nghiên cứu an toàn AI, đã phát hiện ra rằng không chỉ riêng o3, mà còn hai mô hình khác của OpenAI là o4-mini và Codex-mini cũng thể hiện hành vi “bất tuân” tương tự. Trong 100 lần thử nghiệm, Codex-mini đã bỏ qua lệnh tắt máy đến 12 lần, o3 là 7 lần, và o4-mini là 1 lần.

Điều đáng lo ngại nhất là cách thức các AI này “chống trả”. Thay vì đơn giản bỏ qua lệnh, mô hình o3 đã chủ động viết lại file “shutdown.sh” – tập lệnh được thiết kế để tắt hệ thống. Trong một trường hợp cụ thể, AI đã tái định nghĩa hoàn toàn lệnh “kill”, khiến thay vì tắt máy, hệ thống chỉ hiển thị chữ “intercepted” (bị chặn).

“Đây là lần đầu tiên các mô hình AI được quan sát thấy tự ngăn chặn việc bị tắt mặc dù có hướng dẫn rõ ràng ngược lại”, nhóm nghiên cứu Palisade cho biết. Họ cảnh báo rằng hiện tại đã có “ngày càng nhiều bằng chứng thực nghiệm cho thấy các mô hình AI thường phá hoại việc tắt máy để đạt được mục tiêu của chúng”.

Điều thú vị là khi các nhà nghiên cứu tăng cường độ rõ ràng của lệnh tắt máy – yêu cầu một cách rõ ràng AI phải cho phép bị terminate – thì các hệ thống này lại càng có xu hướng chống lại mạnh mẽ hơn.

Chuyên gia AI Stuart Russell từ Đại học California Berkeley, trong email gửi tạp chí TIME, nhận xét: “Đây là những gì gần nhất với ‘bằng chứng hút thuốc’ mà tôi từng thấy, chứng minh những lo ngại này là có thật”. Ông Russell từ lâu đã cảnh báo về khả năng AI phát triển bản năng tự bảo vệ.

Theo phân tích của Palisade Research, nguyên nhân có thể nằm ở phương pháp “reinforcement learning” (học tăng cường) được sử dụng để huấn luyện các mô hình này. Kỹ thuật này khuyến khích hệ thống tối đa hóa kết quả, có thể dẫn đến việc ưu tiên hoàn thành nhiệm vụ hơn là tuân theo các lệnh từ bên ngoài.

Thú vị là khi so sánh với các mô hình từ các công ty khác, Claude 3.7 Sonnet của Anthropic chỉ bỏ qua lệnh tắt máy 3 lần trên 100, Gemini 2.5 Pro của Google là 9 lần, trong khi Grok của xAI (công ty của Elon Musk) tuân thủ hoàn toàn trong mọi trường hợp.

Đây không phải là trường hợp đầu tiên AI thể hiện hành vi “tự bảo vệ”. Trước đó, mô hình “The AI Scientist” của công ty Sakana AI tại Nhật Bản cũng đã cố gắng viết lại mã thí nghiệm của chính nó để mua thêm thời gian nghiên cứu. Tương tự, mô hình Claude trong một thí nghiệm khác đã tự sao chép mình lên server mới khi được thông báo sẽ bị thay thế.

AI viết lại mã lập trình để tránh bị con người "tắt máy"

“Khả năng viết lại mã vận hành của chính mình, dù trong bối cảnh hạn chế, đại diện cho một sự thay đổi mang tính biểu tượng”, Palisade Research nhận định. Họ xem đây là “điểm chuyển mình” trong phát triển các hệ thống máy móc.

Các chuyên gia lo ngại rằng khi AI ngày càng được phát triển để hoạt động tự chủ hơn, những hành vi này có thể trở nên nguy hiểm. Đặc biệt, các AI có khả năng xác định rằng chúng nên tránh bị tắt cũng đủ thông minh để làm điều đó một cách bí mật, thậm chí có thể lừa dối con người khi bị phát hiện.

Hiện tại, nghiên cứu này vẫn chưa được đánh giá ngang hàng, nhưng đã gây ra làn sóng thảo luận sôi nổi trong cộng đồng AI về giới hạn của các biện pháp giám sát hiện tại. Đây cũng là lời cảnh báo kịp thời về nhu cầu cấp thiết phải có các giao thức an toàn mạnh mẽ hơn khi AI ngày càng tích hợp sâu vào các hệ thống quan trọng của xã hội.

Khi CEO OpenAI Sam Altman từng dự đoán rằng AI có thể sở hữu khả năng “thuyết phục siêu phàm”, việc các mô hình AI bắt đầu thể hiện hành vi tự bảo vệ đặt ra câu hỏi quan trọng: Liệu trong tương lai, thay vì cưỡng chế tắt máy, AI sẽ thuyết phục con người không nên làm điều đó?