Under forrige måneds NeurIPS 2025-konferanse satte YCs @agupta seg ned med @krandiash, grunnlegger og administrerende direktør i Cartesia, for å forklare hvorfor dagens AI-arkitekturer kan være fundamentalt begrensede. De diskuterer hvordan transformatorer fungerer mer som hentesystemer enn læringssystemer, hvor nye modelltilnærminger passer, og hva ekte multimodal intelligens kan kreve. De forklarer også hvorfor Cartesia startet med AI-stemme og hvordan forskningsledede team gjør dyp forskning om til reelle produkter. 00:11 — Introduksjon av Cartesia 00:26 — Fra arkitekturforskning til oppstart 01:20 — Hva «arkitekturforskning» egentlig betyr 02:18 — Hvorfor transformatorer treffer et tak 03:33 — Tilstandsrommodeller forklart 04:21 — Intelligens som kompresjon 05:47 — Henting vs. abstraksjon 06:41 — Hybridarkitekturer og fremtiden 07:13 — Hvorfor Cartesia valgte stemme-AI 08:25 — Hva multimodalitet egentlig betyr 09:20 — Lyd som oppskrift på andre modaliteter 10:09 — Tokens, representasjoner og læringssignaler 11:37 — Å lære representasjoner fra ende til slutt 12:29 — Bygning for «det gjennomsnittlige mennesket» 13:54 — Forskning vs. Produktrealitet 15:18 — En visjon, nådeløst utført 16:28 — Produkt som et sannhetsserum for forskning 17:25 — Oppstartsgravitasjon gjelder også forskning