BREAKING: xAI kunngjør Grok 4 «Den kan resonnere på et overmenneskelig nivå!» Her er alt du trenger å vite:
Elon hevder at Grok 4 er smartere enn nesten alle gradsstudenter i alle disipliner samtidig. 100 ganger mer trening enn Grok 2. 10 ganger mer beregning på RL enn noen av modellene der ute.
Opptreden på menneskehetens siste eksamen Elon: «Grok 4 er på postgradsnivå i alt!»
Skalering av HLE - Opplæring Mer databehandling, høyere intelligens. (ingen verktøy)
Med innebygd verktøykall øker Grok 4 ytelsen betraktelig. Se på disse kurvene! Det er viktig å gi AI de riktige verktøyene. Skaleringen er tydelig. Gal!
Pålitelige signaler er nøkkelen til å få RL til å fungere. Det er fortsatt utfordringen med data. Elon: "Den ultimate resonnementtesten er AI som opererer i virkeligheten."
Skalering av databehandling på testtidspunkt Mer enn 50 % av tekst-undergruppen av HLE-problemene er løst! Kurvene blir stadig mer latterlige.
Grok 4 er enkeltagentversjonen. Grok 4 Heavy er multiagentversjonen. Multiagentsystemer er ingen spøk!
Grok 4 brukes til å forutsi World Series-mesterne for i år. Dette er de interessante oppgavene som resonneringsmodeller må testes på. Om faktiske hendelser i den virkelige verden.
En visualisering av to sorte hull som kolliderer. Grok 4 bruker alle slags referanser som papirer, leser PDF-er, begrunner om detaljene i simuleringen og hvilke data som skal brukes.
Eksemplet viser et sammendrag av tidslinjen/endringene og poengkunngjøringene i HLE. Det er ganske kult!
Multimodal ytelse Grok 4 Heavy-ytelsen er høyere enn Grok 4, men må forbedres ytterligere. Det er en av svakhetene, ifølge laget.
Ytelse på resonneringsreferanser. Perfekt poengsum på AIME25! Sprang er sprø sammenlignet med den siste beste modellen på disse oppgavene.
Hvor du kan teste modellene. Tilgjengelig som SuperGrok Heavy-nivå. $30/m for Super Grok $300/m for SuperGrok Heavy.
Stemmeoppdateringer inkludert også! Grok føles raskere og er designet for å være mer naturlig. - 2 ganger raskere - 5 stemmer - 10x daglige brukersekunder
ARC-AGI Grok 4 på ARC-AGI v2 (privat delsett) Det bryter 10 %-barrieren (15,9 %). 2x andreplassen, som er Claude Opus 4-modellen.
Grok 4 på salgsbenken Grok 4 får #1-plassen. Doble nettoformuen til Claude Opus 4.
Grok 4-modeller er tilgjengelige via xAI API. 256K kontekstvindu. Datasøk i sanntid.
Grok 4 for spill! Videoforståelse er et område teamet forbedrer, så det vil bli bedre.
Hva er det neste? Smart og rask vil være i fokus. Koding av modeller er også et stort fokus. Mer dyktige multimodale agenter kommer også. Videogenereringsmodeller er også i horisonten.
@elonmusk og det @xai teamet lagde virkelig mat med Grok 4. Alt veldig spennende å se fokus på AI for virkeligheten, sannhetssøking og å låse opp multimodale agenter neste gang.
Jeg begynte å eksperimentere med Grok 4, og jeg fant allerede noen interessante ting om det. Jeg forbereder en detaljert sammenligning med andre resonneringsmodeller. Jeg vil være vertskap for en workshop om Grok 4 for akademimedlemmene våre snart:
2,19M