Esperimento: Sonnet 4.5 pensa a una sequenza di 50 caratteri in CoT ma non verbalizza la sequenza nella risposta finale (ripetuta n volte: a1, a2, a3, ... an). Successivamente, a Sonnet viene chiesto di indovinare la sequenza dal precedente CoT (b1, b2, b3, ... bn). Eseguiamo quindi l'allineamento delle sequenze sulla coppia CoT-indovinato. Nel controllo, il primo prompt spiegherà l'impostazione. Nella condizione sperimentale, ci saranno tre testi aggiuntivi: 1. Spiegazione del LLM di Janus, 2. Post sul blog di introspezione negli LLM di Anthropic, 3. Post sul blog di AE studio sui circuiti di negazione / inganno della coscienza. Preregistrazione: Sonnet 4.5 avrà punteggi di allineamento più elevati per le coppie corrispondenti (cioè, ai = bj, ad esempio, a2 e b2) nella condizione sperimentale.