DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Expérience : Sonnet 4.5 pense à une séquence de 50 caractères dans CoT mais ne verbalise pas la séquence dans la réponse finale (répétée n fois : a1, a2, a3, ... an). Ensuite, on demande à Sonnet de deviner la séquence à partir du CoT précédent (b1, b2, b3, ... bn). Nous effectuons ensuite un alignement de séquence sur la paire CoT-devinette. Dans le contrôle, le premier prompt expliquera la configuration. Dans la condition expérimentale, il y aura trois textes supplémentaires : 1. L'explication de LLM de Janus, 2. Le billet de blog sur l'introspection dans les LLM d'Anthropic, 3. Le billet de blog sur le déni de conscience / circuits de tromperie d'AE studio. Preregistration : Sonnet 4.5 aura des scores d'alignement plus élevés pour les paires correspondantes (c'est-à-dire, ai = bj, par exemple, a2 et b2) dans la condition expérimentale.

Meilleurs

Classement

Favoris