Startup AI Trung Quốc DeepSeek một lần nữa rơi vào tâm bão tranh cãi khi các chuyên gia nghi ngờ công ty đã sử dụng dữ liệu từ mô hình Gemini 2.5 Pro của Google để huấn luyện phiên bản R1-0528 mới nhất. Điều này đặt ra những câu hỏi quan trọng về đạo đức trong phát triển AI và cuộc đua công nghệ giữa các siêu cường.
Nghi vấn bắt đầu từ những quan sát tưởng chừng như bình thường. Sam Paeach, một nhà phát triển tại Melbourne, phát hiện ra rằng cách “suy nghĩ” và phong cách ngôn ngữ của mô hình DeepSeek R1-0528 có những điểm tương đồng đáng ngờ với Gemini 2.5 Pro của Google. Những “traces” – quá trình suy luận từng bước mà mô hình AI tạo ra khi đưa ra kết luận – của DeepSeek được mô tả là “đọc giống như traces của Gemini”.
Tác giả ẩn danh của công cụ đánh giá AI có tên SpeechMap cũng chia sẻ quan điểm tương tự, cho rằng các đặc điểm ngôn ngữ và cấu trúc của mô hình mới này mang dấu ấn rõ rệt của Google Gemini. Dù chưa phải là bằng chứng cụ thể, những quan sát này đã đủ làm dấy lên làn sóng nghi ngờ trong cộng đồng AI toàn cầu.
Đây không phải lần đầu tiên DeepSeek đối mặt với cáo buộc tương tự. Hồi tháng 12/2024, mô hình V3 của công ty thường xuyên tự nhận mình là ChatGPT, khiến các nhà phát triển nghi ngờ rằng nó đã được huấn luyện trên dữ liệu chat từ nền tảng của OpenAI. Trước đó, OpenAI cũng từng thông báo với Financial Times rằng họ đã tìm thấy bằng chứng liên quan đến việc DeepSeek sử dụng kỹ thuật “distillation” – phương pháp huấn luyện mô hình AI nhỏ hơn bằng cách trích xuất dữ liệu từ những mô hình lớn và mạnh mẽ hơn.
Nathan Lambert, nhà nghiên cứu tại viện nghiên cứu AI phi lợi nhuận AI2, đưa ra góc nhìn thực dụng về vấn đề này. Ông cho rằng nếu đứng ở vị trí của DeepSeek, việc tạo ra một lượng lớn dữ liệu tổng hợp từ mô hình API tốt nhất hiện có là điều hoàn toàn hợp lý. “DeepSeek thiếu GPU nhưng lại có nhiều tiền. Về cơ bản, đây là cách hiệu quả hơn để có được sức mạnh tính toán”, Lambert chia sẻ trên mạng xã hội X.
Mô hình R1-0528 được DeepSeek mô tả là “bản nâng cấp thử nghiệm nhỏ”, nhưng trên trang Hugging Face, công ty lại khẳng định mô hình này “đạt hiệu suất gần bằng các mô hình hàng đầu như o3 và Gemini 2.5 Pro”. Sự mâu thuẫn trong cách trình bày này càng làm gia tăng nghi ngờ về nguồn gốc thực sự của những cải tiến đáng kể mà DeepSeek tuyên bố.
Hiệu suất của R1-0528 thực sự ấn tượng với độ chính xác tăng từ 70% lên 87,5% trong bài kiểm tra AIME 2025, và khả năng lập trình cũng được cải thiện từ 63,5% lên 73,3% trên bộ dữ liệu LiveCodeBench. Những con số này đặt DeepSeek ngang hàng với các mô hình độc quyền hàng đầu từ OpenAI và Google, điều mà nhiều chuyên gia cho rằng khó có thể đạt được chỉ trong thời gian ngắn mà không dựa vào nguồn dữ liệu bên ngoài.
Để đối phó với nguy cơ bị “sao chép”, các công ty AI lớn đã bắt đầu tăng cường các biện pháp bảo mật. OpenAI yêu cầu xác minh danh tính cho việc truy cập các mô hình tiên tiến từ tháng 4, trong khi Google đã bắt đầu “tóm tắt” các traces được tạo bởi mô hình thông qua nền tảng AI Studio để che giấu quy trình hoạt động. Anthropic cũng tuyên bố sẽ áp dụng biện pháp tương tự nhằm bảo vệ “lợi thế cạnh tranh”.
Vụ việc này diễn ra trong bối cảnh căng thẳng địa chính trị gia tăng. Ủy ban Hạ viện Mỹ về CCP đã coi DeepSeek là một rủi ro an ninh quốc gia, với Chủ tịch John Moolenaar khẳng định: “DeepSeek không chỉ là một ứng dụng AI thông thường – đây là vũ khí trong kho tàng của Đảng Cộng sản Trung Quốc, được thiết kế để do thám người Mỹ, đánh cắp công nghệ và phá hoại luật pháp Mỹ”.
Cuộc tranh cãi này phản ánh sự cạnh tranh khốc liệt trong ngành AI toàn cầu, nơi các mô hình như Gemini và GPT-4 mất nhiều năm để phát triển. Khi một startup tương đối mới như DeepSeek đột nhiên đạt được những bước tiến lớn, việc đặt câu hỏi về tính độc lập trong nghiên cứu là điều tự nhiên.
Dù chưa có bằng chứng cụ thể, những nghi ngờ về việc DeepSeek sử dụng dữ liệu từ Gemini đã làm dấy lên cuộc thảo luận về đạo đức trong phát triển AI và vai trò của trí tuệ nhân tạo trong cuộc cạnh tranh công nghệ giữa các quốc gia. Việc này cũng đặt ra câu hỏi về hiệu quả của các biện pháp bảo vệ mà các phòng thí nghiệm AI lớn đang áp dụng.
Cho dù có sử dụng dữ liệu từ Gemini hay không, một điều chắc chắn là các công ty AI đang tăng cường bảo vệ bí mật công nghệ của mình. Cuộc đua AI toàn cầu đã bước sang một giai đoạn mới, nơi việc bảo vệ dữ liệu và quy trình huấn luyện trở thành ưu tiên hàng đầu, đồng thời đặt ra những thách thức mới về minh bạch và hợp tác quốc tế trong lĩnh vực trí tuệ nhân tạo.