Claude 4 ra mắt với khả năng suy luận đa bước đột phá

Anthropic vừa chính thức ra mắt dòng mô hình AI thế hệ mới Claude 4, bao gồm Claude Opus 4 và Claude Sonnet 4, đánh dấu một bước tiến quan trọng trong khả năng suy luận đa bước của trí tuệ nhân tạo. Cả hai mô hình này đều là “hybrid reasoning models” (mô hình suy luận lai), cho phép người dùng lựa chọn giữa việc nhận phản hồi gần như tức thì hoặc kích hoạt chế độ “extended thinking” (suy nghĩ mở rộng) để có khả năng suy luận sâu hơn.

Bước tiến vượt bậc trong khả năng suy luận

Theo Anthropic, Claude Opus 4 và Claude Sonnet 4 có thể phân tích các tập dữ liệu lớn, thực hiện các tác vụ dài hạn và thực hiện các hành động phức tạp. Cả hai mô hình đều được tối ưu hóa để hoạt động tốt với các nhiệm vụ lập trình, khiến chúng phù hợp để viết và chỉnh sửa mã.

Đặc biệt, khi ở chế độ suy nghĩ mở rộng, các mô hình này có thể sử dụng công cụ—như tìm kiếm web—trong quá trình suy nghĩ, cho phép Claude luân phiên giữa suy luận và sử dụng công cụ để cải thiện chất lượng phản hồi. Đây là một bước tiến đáng kể so với các phiên bản trước, nơi khả năng suy luận và sử dụng công cụ thường tách biệt.

Cả Opus 4 và Sonnet 4 đều có thể sử dụng nhiều công cụ, như công cụ tìm kiếm, một cách song song, và chuyển đổi giữa suy luận và công cụ để nâng cao chất lượng câu trả lời. Chúng còn có thể trích xuất và lưu trữ các dữ kiện trong “bộ nhớ” để xử lý nhiệm vụ một cách đáng tin cậy hơn, xây dựng điều mà Anthropic mô tả là “kiến thức ngầm” theo thời gian.

Anthropic Claude 4

Hiệu suất ấn tượng trong các bài kiểm tra benchmark

Claude Opus 4 nổi bật với khả năng lập trình vượt trội. Mô hình này dẫn đầu trên các benchmark như SWE-bench (72,5%) và Terminal-bench (43,2%). Nó mang lại hiệu suất bền vững cho các tác vụ dài hạn đòi hỏi sự tập trung và hàng nghìn bước, với khả năng làm việc liên tục trong vài giờ—vượt xa tất cả các mô hình Sonnet và mở rộng đáng kể những gì các agent AI có thể thực hiện.

Trong khi đó, Claude Sonnet 4 cải thiện đáng kể so với khả năng dẫn đầu ngành của Sonnet 3.7, xuất sắc trong lập trình với 72,7% trên SWE-bench. Mô hình cân bằng hiệu suất và hiệu quả cho các trường hợp sử dụng nội bộ và bên ngoài, với khả năng điều khiển nâng cao để kiểm soát tốt hơn các triển khai.

Claude 4 ra mắt với khả năng suy luận đa bước đột phá

Sức mạnh đột phá của Claude Opus 4

Claude Opus 4 đặc biệt vượt trội trong lập trình và giải quyết vấn đề phức tạp. Cursor gọi nó là đỉnh cao cho lập trình và là bước tiến quan trọng trong việc hiểu codebase phức tạp. Replit báo cáo độ chính xác được cải thiện và những tiến bộ đáng kể cho các thay đổi phức tạp trên nhiều tệp.

Một ví dụ ấn tượng về khả năng của Claude Opus 4 là Rakuten đã xác thực khả năng của nó với một nhiệm vụ refactor mã nguồn mở đòi hỏi khắt khe, chạy độc lập trong 7 giờ với hiệu suất bền vững. Điều này minh họa cho khả năng duy trì tập trung và hiệu quả qua thời gian dài của mô hình.

Claude Sonnet 4: Cân bằng hiệu năng và hiệu quả

Không kém phần ấn tượng, GitHub cho biết Claude Sonnet 4 tỏa sáng trong các kịch bản agent và sẽ giới thiệu nó như mô hình nền tảng cho agent lập trình mới trong GitHub Copilot. Manus nhấn mạnh những cải tiến của nó trong việc tuân theo hướng dẫn phức tạp, suy luận rõ ràng và đầu ra thẩm mỹ.

iGent báo cáo Sonnet 4 xuất sắc trong phát triển ứng dụng đa tính năng tự động, cũng như cải thiện đáng kể khả năng giải quyết vấn đề và điều hướng codebase—giảm lỗi điều hướng từ 20% xuống gần như bằng không.

Tính năng mới và bảo mật nâng cao

Cùng với việc ra mắt các mô hình mới, Anthropic cũng đã giới thiệu những tính năng khác:

Claude Code hiện đã được phát hành rộng rãi: Sau khi nhận được phản hồi tích cực trong giai đoạn xem trước nghiên cứu, Anthropic đang mở rộng cách các nhà phát triển có thể cộng tác với Claude. Claude Code giờ đây hỗ trợ các tác vụ nền thông qua GitHub Actions và tích hợp gốc với VS Code và JetBrains, hiển thị các chỉnh sửa trực tiếp trong tệp của bạn để lập trình cặp đôi liền mạch.
Khả năng API mới: Anthropic đang phát hành bốn khả năng mới trên Anthropic API cho phép các nhà phát triển xây dựng agent AI mạnh mẽ hơn: công cụ thực thi mã, đầu nối MCP, Files API và khả năng lưu trữ prompt lên đến một giờ.

Đáng chú ý, Anthropic đang phát hành Opus 4 với các biện pháp bảo vệ nghiêm ngặt hơn, bao gồm các bộ phát hiện nội dung có hại được tăng cường và biện pháp phòng thủ an ninh mạng. Công ty tuyên bố rằng qua kiểm tra nội bộ, Opus 4 có thể “tăng đáng kể” khả năng của người có nền tảng STEM trong việc có được, sản xuất hoặc triển khai vũ khí hóa học, sinh học hoặc hạt nhân, đạt đến “đặc điểm kỹ thuật ASL-3” của Anthropic.

Thay đổi mô hình phát hành

Anthropic, nhận thức sâu sắc về các thách thức trong lĩnh vực AI, đang hứa hẹn các bản cập nhật mô hình thường xuyên hơn. “Chúng tôi đang chuyển sang các bản cập nhật mô hình thường xuyên hơn, cung cấp một dòng cải tiến ổn định mang lại khả năng đột phá cho khách hàng nhanh hơn,” công ty khởi nghiệp viết trong bài đăng dự thảo của họ.

Việc ra mắt Claude 4 đánh dấu một bước tiến quan trọng trong khả năng suy luận của các mô hình AI. Các mô hình này là một bước lớn hướng tới trợ lý ảo hoàn chỉnh—duy trì ngữ cảnh đầy đủ, tập trung bền bỉ vào các dự án dài hạn và thúc đẩy tác động chuyển đổi. Với khả năng suy luận đa bước được cải thiện, Claude 4 mở ra nhiều khả năng mới cho các ứng dụng AI trong lập trình, nghiên cứu và nhiều lĩnh vực khác.

Claude Opus 4 và Claude Sonnet 4 hiện đã có sẵn trên tất cả các nền tảng của Anthropic, với Sonnet 4 được cung cấp cho cả người dùng miễn phí và trả phí, trong khi Opus 4 chỉ dành cho người dùng trả phí.

Claude 4 ra mắt với khả năng suy luận đa bước đột phá