Meta giới thiệu V-JEPA 2: Robot AI biết “tư duy trước khi hành động”

Khi một đứa trẻ ném bóng, chú chó thông minh không chạy theo quả bóng mà chạy thẳng đến nơi nó dự đoán bóng sẽ rơi. Giờ đây, Meta muốn dạy cho robot cùng khả năng "thông minh thường thức" này thông qua mô hình AI V-JEPA 2 - công nghệ có thể thay đổi hoàn toàn cách máy móc tương tác với thế giới xung quanh.

Được giới thiệu tại hội nghị VivaTech ở Paris hôm 11/6, V-JEPA 2 đánh dấu bước tiến quan trọng trong lĩnh vực “mô hình thế giới” (world models) – những hệ thống AI có thể mô phỏng thế giới vật lý và giúp máy móc suy luận, lập kế hoạch như con người. Meta tin rằng các mô hình thế giới sẽ mở ra kỷ nguyên mới cho robotics, cho phép các tác nhân AI thực tế giúp đỡ các công việc gia đình và nhiệm vụ vật lý mà không cần lượng dữ liệu huấn luyện robot khổng lồ.

Meta giới thiệu V-JEPA 2: Robot AI biết "tư duy trước khi hành động"

Điểm đặc biệt của V-JEPA 2 nằm ở khả năng học hỏi từ video không gán nhãn. Thay vì cần dữ liệu được xử lý sẵn như các mô hình AI truyền thống, V-JEPA 2 được huấn luyện trên hơn 1 triệu giờ video thô để hiểu các quy luật vật lý cơ bản như trọng lực, chuyển động và tương tác giữa các vật thể. Kiến trúc JEPA (Joint Embedding Predictive Architecture) cho phép mô hình học bằng cách dự đoán những phần bị che khuất của video trong không gian khái niệm trừu tượng thay vì cố gắng tái tạo từng pixel.

Câu chuyện thú vị là khi một đứa trẻ chơi ném bóng với chú chó, chú chó không chạy theo vị trí hiện tại của quả bóng mà chạy đến nơi nó dự đoán bóng sẽ rơi. Đây chính là loại “thông minh thường thức” mà V-JEPA 2 muốn mang đến cho máy móc. Trong các thử nghiệm tại phòng lab của Meta, robot được trang bị V-JEPA 2 hoàn thành thành công các nhiệm vụ nhặt và đặt vật thể với đối tượng chưa từng thấy, đạt tỷ lệ thành công 65-80% chỉ bằng cách sử dụng hướng dẫn thị giác.

So với đối thủ cạnh tranh, V-JEPA 2 nhanh hơn 30 lần so với mô hình Cosmos của Nvidia, mặc dù Meta có thể đang sử dụng các tiêu chuẩn đánh giá khác với Nvidia. Mô hình có 1,2 tỷ tham số và sử dụng quy trình huấn luyện hai giai đoạn: đầu tiên học hiểu động lực học thế giới từ video và hình ảnh, sau đó được tinh chỉnh với 62 giờ dữ liệu robot để kết nối đầu vào thị giác với các hành động điều khiển cụ thể.

Nhà khoa học trưởng về AI của Meta, Yann LeCun, mô tả V-JEPA 2 như một “bản sao kỹ thuật số trừu tượng của thực tế” cho phép AI “dự đoán hậu quả của hành động và lập kế hoạch để hoàn thành nhiệm vụ cụ thể”. Ông chia sẻ trong video giới thiệu rằng khả năng này sẽ giúp robot thực hiện các công việc từ nấu ăn đến dọn dẹp nhà cửa một cách tự nhiên.

Ứng dụng thực tế của V-JEPA 2 rất đa dạng, từ xe tự lái có thể dự đoán chuyển động của người đi bộ, robot kho bãi hiểu cách di chuyển hàng hóa, đến drone giao hàng biết cách điều hướng trong môi trường phức tạp. Khác với các mô hình truyền thống dựa vào hình ảnh hoặc video có gán nhãn, V-JEPA 2 sử dụng “không gian ẩn” để mô phỏng động lực học thế giới thực, đánh dấu sự chuyển dịch từ AI dựa trên ngôn ngữ sang hệ thống nhận thức không gian tốt hơn.

Meta cũng tung ra ba bộ tiêu chuẩn mới để đánh giá khả năng hiểu biết vật lý của AI: IntPhys 2 để phát hiện vật lý không hợp lý trong video, cùng hai bộ tiêu chuẩn khác đánh giá hiểu biết về tương tác vật thể. Tuy nhiên, trong khi con người đạt độ chính xác lên tới 95% trong các nhiệm vụ này, V-JEPA 2 và các mô hình video hiện tại vẫn còn khoảng cách đáng kể.

Động thái này diễn ra trong bối cảnh Meta đang đẩy mạnh tham vọng AI với khoản đầu tư 14 tỷ USD vào Scale AI, startup cung cấp dữ liệu huấn luyện cho machine learning. CEO của Scale AI là Alexandr Wang cũng được tuyển dụng để dẫn dắt các sáng kiến AI chủ chốt tại Meta. Điều này phù hợp với mục tiêu của CEO Mark Zuckerberg về việc tích hợp AI vào các sản phẩm cốt lõi của Meta từ Facebook, Instagram đến khả năng robotics và hệ thống tự động dài hạn.

Cuộc đua phát triển mô hình thế giới đang trở nên khốc liệt với sự tham gia của Google DeepMind với các mô hình Gemini Robotics, startup World Labs của nhà nghiên cứu AI nổi tiếng Fei-Fei Li đã huy động được 230 triệu USD, cùng nhiều players khác như Figure AI với mô hình Helix hay Microsoft với Magma AI.

Meta đã công bố V-JEPA 2 dưới dạng mã nguồn mở, cho phép các nhà phát triển truy cập, thử nghiệm và tích hợp vào nhiều use case khác nhau. Theo Meta, việc dựa vào lý luận không gian đơn giản thay vì đầu vào dữ liệu nặng có thể làm cho mô hình hiệu quả, thích ứng và mở rộng quy mô hơn các mô hình AI hiện có.

Nếu các mô hình thế giới như V-JEPA 2 tiếp tục phát triển theo kỳ vọng, chúng có thể mở đường cho AI hoạt động tự động trong môi trường xa lạ, mở ra các ứng dụng trong y tế, nông nghiệp và thậm chí cứu hộ thiên tai. Đây là bước quan trọng trong lộ trình AI dài hạn của Meta, đặc biệt khi cuộc cạnh tranh với OpenAI, Microsoft và Google ngày càng gay gắt.

Với V-JEPA 2, Meta không chỉ hướng tới việc cải thiện trải nghiệm người dùng trên các nền tảng hiện tại mà còn đặt nền móng cho tương lai khi AI có thể tương tác trực tiếp và thông minh với thế giới vật lý xung quanh chúng ta.