BREAKING: xAI oznamuje Grok 4 "Dokáže uvažovat na nadlidské úrovni!" Zde je vše, co potřebujete vědět:
Elon tvrdí, že Grok 4 je chytřejší než téměř všichni postgraduální studenti ve všech oborech současně. 100x více tréninku než Grok 2. 10x více výpočetních prostředků na RL než kterýkoli z modelů.
Výkon na poslední zkoušce lidstva Elon: "Grok 4 je ve všem na postgraduální úrovni!"
Scaling HLE - Školení Více výpočetní techniky, vyšší inteligence. (bez nástrojů)
Díky nativnímu volání nástrojů Grok 4 výrazně zvyšuje výkon. Podívejte se na ty křivky! Je důležité dát umělé inteligenci správné nástroje. Škálování je jasné. Šílené!
Spolehlivé signály jsou klíčem k tomu, aby RL fungoval. Stále je tu výzva v podobě dat. Elon: "Ultimátní test uvažování je umělá inteligence fungující v realitě."
Škálování výpočetních prostředků v době testu Více než 50% čistě textové podmnožiny problémů HLE je vyřešeno! Křivky jsou stále směšnější.
Grok 4 je verze s jedním agentem. Grok 4 Heavy je verze s více agenty. Multiagentní systémy nejsou žádná legrace!
Grok 4 se používá k předpovídání šampionů Světové série pro letošní rok. To jsou zajímavé úkoly, na kterých je třeba testovat modely uvažování. Na skutečných událostech v reálném světě.
Vizualizace srážky dvou černých děr. Grok 4 používá všechny druhy odkazů, jako jsou články, čte soubory PDF, důvody týkající se detailů simulace a jaká data použít.
Příklad ukazuje souhrn časové osy/oznámení o změnách a skóre v hle. To je docela v pohodě!
Multimodální výkon Výkon Grok 4 Heavy je vyšší než Grok 4, ale je třeba jej dále zlepšit. Podle týmu je to jedna ze slabin.
Výkon v referenčních hodnotách uvažování. Perfektní skóre na AIME25! Skoky jsou šílené ve srovnání s posledním nejlepším modelem na tyto úkoly.
Kde testovat modely. K dispozici jako úroveň SuperGrok Heavy. 30 $/m za Super Grok 300 $/m pro SuperGrok Heavy.
Včetně hlasových aktualizací! Grok působí svižněji a je navržen tak, aby byl přirozenější. - 2x rychlejší - 5 hlasů - 10x více uživatelských vteřin denně
ARC-AGI Grok 4 na ARC-AGI v2 (soukromá podmnožina) Prolamuje hranici 10 % (15,9 %). 2x druhé místo, kterým je model Claude Opus 4.
Grok 4 na prodejní lavičce Grok 4 získává místo #1. Dvojnásobek čistého jmění Claude Opus 4.
Modely Grok 4 jsou k dispozici prostřednictvím rozhraní xAI API. Kontextové okno o velikosti 256 kB. Vyhledávání dat v reálném čase.
Grok 4 pro hraní! Porozumění videu je oblast, ve které se tým zlepšuje, takže se to bude zlepšovat.
Co bude dál? Důraz bude kladen na chytrost a rychlost. Velký důraz je kladen také na kódovací modely. Přicházejí také schopnější multimodální agenti. Na obzoru jsou také modely generování videa.
@elonmusk a tým @xai s Grokem 4 opravdu vařili. To vše je velmi vzrušující vidět zaměření na umělou inteligenci pro realitu, hledání pravdy a odemykání multimodálních agentů.
Začal jsem experimentovat s Grokem 4 a už jsem na něm našel několik zajímavých věcí. Připravuji podrobné srovnání s jinými modely uvažování. Brzy budu pořádat workshop o Grok 4 pro členy naší akademie:
2,19M