Vår Aleph-provagent nådde precis #1 på PutnamBench, ett riktmärke byggt på Putnam-problem – en av de svåraste matematikolympiaderna på högskolenivå – helt formaliserad med maskinkontrollerade bevis och utan mänsklig inblandning. Putnam-problem anses ofta vara svårare än IMO-problem och täcker ett brett spektrum av ämnen, inklusive kalkyl, talteori, gruppteori och andra kärnområden inom matematiken. Detta är starka bevis på att AI kan hantera djup, flerstegsresonemang med korrekthetsgarantier – samma typ av teknik som vi använder för att verifiera verklig mjukvara, hårdvara och vetenskapliga upptäckter som kräver formell logik.