Cosa sono i modelli AI «reasoners» e come funzionano i thinking tokens

Condividi l'articolo

Negli ultimi mesi del 2025 e nella primavera del 2026 si è imposto un nuovo termine fra gli addetti ai lavori dell’intelligenza artificiale: «reasoners», ovvero modelli che ragionano. A renderli diversi dalle generazioni precedenti è una tecnica chiamata thinking tokens: invece di produrre subito una risposta, questi modelli si concedono un «monologo interiore» fatto di passaggi intermedi. Cosa significa davvero, perché è una svolta e quali conseguenze pratiche ha?

Cos’è un modello AI «reasoner»

Un reasoner (in italiano: «ragionatore») è un modello di intelligenza artificiale generativa addestrato non solo a produrre una risposta a partire da una domanda, ma a esplicitare un processo di pensiero prima di rispondere. Concretamente, il modello genera in modo nascosto una sequenza di passaggi — ipotesi, controlli, calcoli, verifiche — e solo alla fine produce la risposta visibile all’utente.

I primi modelli di questo tipo, apparsi nel 2024 e 2025, sono noti con sigle come o1, o3 e o4 di OpenAI, le serie «Thinking» di Google DeepMind, i modelli «extended thinking» di Anthropic Claude e analoghi sviluppi in Cina e in Europa. Tutti condividono la stessa idea: scambiare tempo di calcolo per qualità di risposta.

Sviluppatore al lavoro: i reasoners eccellono nel codice
I modelli reasoners migliorano sensibilmente le performance su benchmark di programmazione complessa.

I «thinking tokens»: cosa sono

I token sono i mattoncini con cui i modelli linguistici manipolano il testo: parole, sillabe, pezzi di parole. Un modello produce ogni risposta un token alla volta.

I thinking tokens sono token «di ragionamento»: vengono generati dal modello come un proprio monologo interiore, di solito non mostrato all’utente. Sono passaggi in cui il modello:

  • scompone il problema in sotto-problemi;
  • elenca i fatti rilevanti;
  • fa ipotesi e le verifica;
  • esegue calcoli intermedi;
  • controlla la coerenza prima di rispondere.

Più thinking tokens un reasoner si concede, più tempo «pensa» — e in molti casi, più precisa diventa la risposta.

Come è nata l’idea: dal «chain of thought» ai reasoners

L’idea di far ragionare un modello passo per passo non è del tutto nuova. Già nel 2022, i ricercatori avevano scoperto che chiedere a un modello di «pensare passo passo» (chain of thought prompting) migliorava le performance in matematica e logica. Era però un effetto fragile, dipendente da come si scriveva la domanda.

Il salto è arrivato quando le aziende hanno cominciato ad addestrare esplicitamente i modelli a generare lunghe catene di ragionamento, e a farlo bene. Questo richiede:

  • grandi quantità di esempi di ragionamento di buona qualità;
  • tecniche di reinforcement learning che premiano le catene utili e penalizzano quelle inutili o sbagliate;
  • infrastrutture di calcolo capaci di generare centinaia o migliaia di thinking tokens in tempo reale.

Cosa cambia rispetto ai modelli «classici»

I modelli linguistici tradizionali (GPT-4, Claude 3, Gemini 1.5) sono velocissimi: rispondono in pochi secondi, ma con uno schema mentale costante, qualunque sia la difficoltà della domanda. Spesso bastano per scrivere un’email o riassumere un testo, ma faticano su problemi di logica, matematica complessa o pianificazione a più passi.

I reasoners introducono invece il concetto di tempo variabile. Per una domanda semplice rispondono in fretta. Per un problema complesso possono pensare per minuti, generando migliaia di thinking tokens prima di produrre la soluzione. È simile a quanto fa un essere umano: la differenza fra «mi viene istintivo» e «devo prendermi un momento per ragionare».

Dove i reasoners fanno davvero la differenza

Le aree in cui i modelli ragionatori brillano sono ben definite:

Matematica e dimostrazioni

Sui test di matematica avanzata, i reasoners hanno raggiunto livelli da medaglia d’oro alle Olimpiadi Internazionali della Matematica, ben oltre i modelli che si limitano a «indovinare» la risposta.

Programmazione

Nei benchmark di sviluppo software (SWE-Bench, LiveCodeBench), i reasoners risolvono bug e implementano funzioni in modo molto più affidabile, perché possono leggere il codice, ipotizzare il problema, testare mentalmente la soluzione.

Visualizzazione di tecnologia AI
Il «pensare» del modello è una catena di token interni che precede la risposta visibile.

Diagnosi e analisi

Studi recenti mostrano che, su casi clinici complessi forniti in forma testuale, i reasoners arrivano a diagnosi più articolate e meno superficiali. Restano strumenti di supporto, non sostituti del medico, ma il salto rispetto ai modelli precedenti è netto.

Pianificazione e agenti AI

Quando un’AI deve compiere una sequenza di azioni autonome — cercare informazioni online, scrivere codice, verificare risultati — un buon ragionamento interno è quasi indispensabile. Per questo i reasoners stanno alla base della nuova generazione di «agenti AI».

Costi, energia e i limiti del «pensare di più»

C’è però un costo, e non solo metaforico. Generare migliaia di thinking tokens significa:

  • più tempo di risposta: da pochi secondi a diversi minuti per le richieste più impegnative;
  • più consumo di calcolo: ogni token richiede una chiamata al modello;
  • più energia elettrica: una richiesta a un reasoner può costare fino a 10-50 volte rispetto allo stesso modello «standard».

Per questo nelle interfacce commerciali si trova ormai una distinzione fra modello veloce e modello ragionatore. L’utente sceglie quale usare a seconda del problema, perché far ragionare un modello a fondo costa.

Il dibattito: «ragiona davvero» o solo «sembra ragionare»?

I reasoners hanno acceso un dibattito anche scientifico. Alcuni ricercatori sostengono che la catena di ragionamento sia un vero processo cognitivo emergente; altri ritengono che resti, in ultima analisi, una simulazione molto sofisticata di ragionamento, ottenuta combinando enormi quantità di esempi di problem solving umani.

La risposta probabile è in mezzo: questi modelli non «pensano» come noi, ma usano in modo intensivo un meccanismo computazionale che assomiglia funzionalmente al ragionamento. È un’intelligenza diversa, non identica, alla nostra.

Trasparenza: posso vedere il «monologo interno»?

Dipende dal modello. Alcune aziende hanno deciso di nascondere i thinking tokens per ragioni commerciali e di sicurezza (impedire la copia del metodo, evitare contenuti sgradevoli nei passaggi intermedi). Altri modelli, soprattutto open source, mostrano la catena di pensiero per intera.

Mostrare i thinking tokens ha vantaggi pratici per gli utenti tecnici: si può capire perché il modello ha sbagliato, e correggere il prompt. Ha però anche un rovescio: catene di ragionamento errate possono creare l’illusione di sicurezza.

Server e data center
Una risposta di un reasoner può richiedere 10-50 volte più calcolo di una risposta standard.

Cosa cambia per gli utenti comuni

Per chi usa quotidianamente un’AI, alcune indicazioni pratiche:

  • Per compiti semplici (riassunti, email, traduzioni), un modello standard è più che sufficiente e costa meno;
  • Per problemi complessi (analisi di documenti lunghi, codice, calcoli), conviene usare un reasoner e accettare l’attesa;
  • Le risposte di un reasoner non sono mai certificate: è bene verificare i passaggi critici, soprattutto in ambiti specialistici come medicina o diritto;
  • Le aziende che sviluppano agenti AI complessi (assistenti autonomi, copiloti specialistici) si stanno tutte muovendo verso architetture basate su reasoners.

Una nuova generazione, non un nuovo «cervello»

I reasoners non sono un cambiamento radicale di tecnologia: restano modelli linguistici basati su transformer, addestrati su enormi corpora di testo. La novità sta nel come vengono usati: spostando una parte del calcolo al momento della risposta, anziché solo durante l’addestramento. È un esempio interessante di come si possa progredire non solo costruendo modelli più grandi, ma anche facendoli pensare meglio.

Per approfondire l’idea di chain of thought e le sue varianti scientifiche si può consultare la voce di Wikipedia sul prompt engineering e la sezione dedicata a Chain-of-Thought. Sul nostro blog trovi anche un articolo dedicato agli agenti AI e alle nuove «routines».

Domande frequenti sui modelli reasoners

Quali sono esempi di modelli reasoners?

Le serie o1, o3 e o4 di OpenAI, i modelli «Extended Thinking» di Anthropic Claude, le serie «Thinking» di Google Gemini, e diversi modelli open source come DeepSeek-R1 o Qwen-Thinking.

I reasoners sono sempre meglio dei modelli classici?

No. Sono meglio su problemi complessi che richiedono ragionamento (matematica, codice, pianificazione). Su compiti semplici, però, sono più lenti, più costosi e non offrono vantaggi apprezzabili rispetto ai modelli «istantanei».

Vedo i thinking tokens nella chat?

Dipende dal modello. Alcuni li mostrano in un riquadro a parte («Sto pensando…»), altri li nascondono mostrando solo la risposta finale. Spesso è possibile attivare/disattivare la visualizzazione nelle impostazioni.

Possono sbagliare anche i reasoners?

Sì. Una catena di ragionamento può contenere errori che si propagano fino alla risposta. Il fatto che il modello «mostri il pensiero» non è una garanzia di correttezza. Le verifiche da parte di un esperto restano indispensabili nei settori delicati.

I reasoners consumano molta energia?

Sì, più dei modelli standard. Generare migliaia di thinking tokens significa più chiamate al modello e più elettricità. Le aziende stanno lavorando per rendere il processo più efficiente, ma per ora l’impatto energetico è uno dei limiti principali.

I reasoners renderanno superflui i modelli «classici»?

Improbabile. Il futuro plausibile è una combinazione: modelli rapidi per la maggior parte delle richieste, e reasoners chiamati quando il problema è davvero complesso. È un’evoluzione, non una sostituzione.