BREAKING: xAI công bố Grok 4 "Nó có thể lý luận ở cấp độ siêu phàm!" Dưới đây là mọi thứ bạn cần biết:
Elon tuyên bố rằng Grok 4 thông minh hơn hầu hết tất cả các sinh viên tốt nghiệp trong tất cả các lĩnh vực cùng một lúc. Đào tạo nhiều hơn 100 lần so với Grok 2. Điện toán trên RL nhiều hơn 10 lần so với bất kỳ mô hình nào hiện có.
Hiệu suất trong kỳ thi cuối cùng của nhân loại Elon: "Grok 4 là trình độ sau đại học trong mọi thứ!"
Mở rộng quy mô HLE - Đào tạo Tính toán nhiều hơn, trí thông minh cao hơn. (không có công cụ)
Với việc gọi công cụ gốc, Grok 4 tăng cường hiệu suất một cách đáng kể. Hãy nhìn vào những đường cong đó! Điều quan trọng là cung cấp cho AI những công cụ phù hợp. Sự mở rộng là rõ ràng. Điên rồ!
Các tín hiệu đáng tin cậy là chìa khóa để làm cho RL hoạt động. Vẫn còn thách thức về dữ liệu. Elon: "Bài kiểm tra lý luận cuối cùng là AI hoạt động trong thực tế."
Thay đổi quy mô điện toán thời gian thử nghiệm Hơn 50% tập hợp con chỉ văn bản của các vấn đề HLE đã được giải quyết! Các đường cong tiếp tục trở nên lố bịch hơn.
Grok 4 là phiên bản đơn tác nhân. Grok 4 Heavy là phiên bản đa tác nhân. Hệ thống đa tác nhân không phải là chuyện đùa!
Grok 4 đang được sử dụng để dự đoán nhà vô địch World Series năm nay. Đây là những nhiệm vụ thú vị mà các mô hình lý luận cần được kiểm tra trên các sự kiện thực tế.
Hình ảnh hai lỗ đen va chạm. Grok 4 sử dụng tất cả các loại tài liệu tham khảo như giấy tờ, đọc PDF, lý do về các chi tiết của mô phỏng và dữ liệu cần sử dụng.
Ví dụ hiển thị tóm tắt về dòng thời gian/thay đổi và thông báo điểm số trong HLE. Điều đó khá tuyệt!
Hiệu suất đa phương thức Hiệu suất Grok 4 Heavy cao hơn Grok 4, nhưng cần được cải thiện hơn nữa. Đó là một trong những điểm yếu, theo nhóm.
Hiệu suất trên điểm chuẩn Reasoning. Điểm tuyệt đối trên AIME25! Những bước nhảy vọt thật điên rồ so với mô hình tốt nhất cuối cùng trong các nhiệm vụ này.
Nơi kiểm tra các mô hình. Có sẵn dưới dạng cấp SuperGrok Heavy. $ 30 / tháng cho Super Grok $ 300 / m cho SuperGrok Heavy.
Cập nhật bằng giọng nói cũng bao gồm! Grok cho cảm giác nhanh nhẹn hơn và được thiết kế tự nhiên hơn. - Nhanh hơn 2 lần - 5 giọng nói - 10 lần giây người dùng hàng ngày
ARC-AGI Grok 4 trên ARC-AGI v2 (tập con riêng) Nó phá vỡ rào cản 10% (15,9%). 2 lần vị trí thứ hai, đó là mẫu Claude Opus 4.
Grok 4 trên băng ghế bán hàng tự động Grok 4 có vị trí # 1. Nhân đôi giá trị tài sản ròng của Claude Opus 4.
Các mô hình Grok 4 có sẵn thông qua API xAI. Cửa sổ ngữ cảnh 256K. Tìm kiếm dữ liệu theo thời gian thực.
Grok 4 để chơi game! Hiểu biết về video là một lĩnh vực mà nhóm đang cải thiện, vì vậy nó sẽ trở nên tốt hơn.
Tiếp theo là gì? Thông minh và nhanh chóng sẽ là trọng tâm. Các mô hình mã hóa cũng là một trọng tâm lớn. Các đại lý đa phương thức có khả năng hơn cũng sẽ đến. Các mô hình tạo video cũng đang ở phía chân trời.
@elonmusk và nhóm @xai thực sự nấu ăn với Grok 4. Tất cả đều rất thú vị khi thấy tập trung vào AI cho thực tế, tìm kiếm sự thật và mở khóa các tác nhân đa phương thức tiếp theo.
Tôi bắt đầu thử nghiệm với Grok 4 và tôi đã tìm thấy một số điều thú vị về nó. Tôi đang chuẩn bị một so sánh chi tiết với các mô hình lý luận khác. Tôi sẽ sớm tổ chức một hội thảo về Grok 4 cho các thành viên học viện của chúng tôi:
2,19M