Il test di Turing  
     
 



Questo mese celebriamo il 75° anniversario della pubblicazione di un articolo epocale del matematico Alan Turing. Nell'ottobre del 1950, Turing ha scritto un famoso articolo intitolato “Computing Machinery and Intelligence” (Macchine calcolatrici e intelligenza), in cui ha proposto un “gioco di imitazione” che è diventato noto come il “test di Turing”.

In esso, un esaminatore conversa liberamente tramite chat (all'epoca si pensava a un telescrivente) con un computer e un essere umano. Se l'esaminatore non è in grado di distinguere quale dei due è il computer e quale è l'essere umano, allora si può concludere, sosteneva Turing, che il computer “pensa” o almeno è in grado di imitare perfettamente il pensiero umano ed è quindi intelligente quanto un essere umano. Egli ha affermato:

“Credo che tra circa cinquant'anni sarà possibile programmare computer con una capacità di memoria di circa un gigabyte in modo tale da far loro giocare il gioco dell'imitazione così bene che un interrogatore medio non avrà più del 70% di possibilità di identificare correttamente la persona dopo cinque minuti di domande...”

Ci sono molte domande che possono essere sollevate riguardo al test di Turing e alle sue previsioni sull'intelligenza digitale. La domanda principale per me è: anche se le risposte del computer sono molto simili a quelle che ci si aspetterebbe da un essere umano, questo ha davvero qualche significato?

Il test non tenta esplicitamente di verificare che nelle risposte alle domande sia stata utilizzata l'intelligenza reale. In effetti, non può farlo. Può solo testare ciò che potrebbe essere semplicemente una questione di apparenza, piuttosto che l'effettiva capacità di ragionamento.

Quando Alan Turing ha proposto per la prima volta il test, la sua idea era ovviamente che il computer sarebbe stato programmato con numerose regole in base alle quali avrebbe potuto prendere decisioni, dopo aver ricevuto le informazioni di base pertinenti. Fino agli anni '90, i computer non erano in grado di imparare dall'esperienza.

Infatti, il trionfo definitivo in quel periodo era la capacità di un computer, “Deep Blue”, di giocare a scacchi ad alto livello. Questa capacità si basava su una serie di regole sviluppate originariamente da Alan Turing molti anni prima.

Ovviamente, il numero di mosse possibili per iniziare il gioco è limitato, ma molto rapidamente le possibilità diventano un numero di permutazioni completamente ingestibile. I giocatori esperti utilizzano la loro esperienza per sapere quali possibilità esplorare e quali ignorare.

Alan Turing aveva quindi proposto di fornire al computer una serie di 10 linee guida, ad esempio: se puoi catturare un pezzo dell'avversario senza metterti in pericolo, allora fallo. Alla luce dell'esperienza, i ricercatori hanno aggiunto altre euristiche e, con l'aumento della potenza di calcolo disponibile, un computer ha finalmente raggiunto lo status di Gran Maestro.

Ma si trattava solo di un computer tradizionale, quindi privo della flessibilità di un cervello.

E non era il computer ad aver imparato dall'esperienza, ma i ricercatori.

Ora disponiamo di computer in grado di discernere pattern, anche quelli che noi non riusciamo a discernere. Sono in grado di produrre previsioni dai pattern, ad esempio come si ripiegheranno le molecole proteiche e quindi come reagiranno con altre sostanze chimiche. Ma non imitano ancora gli esseri umani con il loro ragionamento soggetto a errori, le loro emozioni e la loro intelligenza generale. 

Turing non poteva avere alcuna idea dei modelli di linguaggio grande (LLM) che abbiamo oggi, che sembrano utilizzare il ragionamento umano e avere personalità umane. Come sappiamo, in realtà raccolgono grandi quantità di informazioni da Internet e, su base probabilistica, ce le restituiscono come risposte alle domande che poniamo loro.

Un LLM non finge apertamente di capire ciò che sta facendo. Tuttavia, può essere convincente, molto convincente. Un articolo appena pubblicato esamina tuttavia la loro affidabilità, non solo in termini di accuratezza fattuale, ma anche di parzialità. I ricercatori hanno scoperto che gli agenti di ricerca approfondita e i motori di ricerca da essi alimentati spesso formulano affermazioni non supportate e parziali, non corroborate dalle fonti che citano.

La loro analisi ha rilevato che circa il 33% delle risposte fornite dagli strumenti di IA non era supportato da fonti affidabili. Per il GPT 4.5 di OpenAI, la percentuale era ancora più alta, pari al 47%. Ai motori di intelligenza artificiale sono state sottoposte 300 domande, le cui risposte sono state valutate in base a otto diversi parametri. Questi parametri erano stati concepiti per verificare se una risposta fosse unilaterale o eccessivamente sicura di sé e quanto fosse pertinente alla domanda.

Inoltre, si è verificato quali fonti fossero state citate, se presenti, e in che misura tali citazioni supportassero effettivamente le affermazioni contenute nelle risposte. Anche in questo caso, le prestazioni sono state scarse. Molti modelli hanno fornito risposte univoche. Circa il 23% delle affermazioni fatte dal motore di ricerca Bing Chat includeva dichiarazioni non supportate, mentre per You.com e Perplexity AI la percentuale era di circa il 31%. GPT-4.5 ha prodotto ancora più affermazioni non supportate: il 47%.

Le risposte dell'IA sono state però valutate da un LLM. Quindi, l'IA ha valutato il proprio lavoro?

Il LLM utilizzato è stato però specificatamente formato per comprendere il modo migliore per valutare le risposte. Il processo di formazione del LLM si è basato sul confronto tra le valutazioni di due annotatori umani su oltre 100 domande simili a quelle utilizzate nello studio. Quindi, una fonte di pregiudizio ancora maggiore, che ci lascia con una ricerca che non è tra le più solide.

Ma d'altra parte, noi esseri umani siamo pieni di pregiudizi e non riusciamo a fornire fonti che giustifichino le nostre affermazioni. Molte persone trovano le risposte degli LLM convincenti e indistinguibili dalle risposte prodotte da esseri umani reali. Arrivano persino ad attribuire loro personalità e autocoscienza, talvolta accettando i loro consigli anche quando suggeriscono l'autolesionismo o il suicidio come risposta ai problemi della vita. Ma in questo senso un LLM riflette molto bene noi stessi e le nostre capacità. Dopotutto, essi si limitano a riproporre ciò che noi esseri umani abbiamo pubblicato sul web. E così superano il test di Turing perfettamente.

Se però un processo informatico che non ha alcuna intelligenza o capacità di ragionamento reale può convincerci di essere una persona, qualcosa con autocoscienza, allora questo ci dice che il test di Turing non ha alcun valore evidente. È semplicemente un test dell'apparenza di razionalità, di umanità.

E si può anche dire che la capacità dei LLM di produrre medialmente risposte così convincenti dovrebbe farci capire che non sono esseri razionali.

Normalmente non produciamo il flusso continuo di parole tipico degli LLM. Per lo più dobbiamo fare una pausa quando parliamo di qualcosa di complesso o di nuovo. Abbiamo bisogno di fermarci a riflettere, per decidere cosa pensiamo e come esprimerlo al meglio. A volte abbiamo persino bisogno di metterlo per iscritto per chiarire i nostri pensieri. A volte abbiamo bisogno di interromperci del tutto e consultare libri o altro materiale per riempire quelle che ci rendiamo conto essere lacune nella nostra conoscenza prima di arrivare a una conclusione, tanto più quando la decisione influirà su un aspetto importante della nostra vita. Un LLM? No.

Ma tutto ciò getta una luce interessante su un’altra questione: il libero arbitrio - un concetto che io considero un'illusione.

Come spiegazione del processo decisionale, abbiamo il determinismo e/o la casualità. La casualità sarebbe necessariamente a livello quantistico, ma sarebbe in grado di stimolare nuovi pensieri. Naturalmente, i nuovi pensieri sono poi soggetti ai nostri processi di ragionamento (e ai nostri pregiudizi).

Quasi tutti però sono convinti che esista una terza via.

Ora sospetto che ciò sia al meno in parte dovuto alla nostra capacità di fare una pausa per raccogliere ulteriori informazioni e di fermarsi per riflettere su ciò che stiamo dicendo, utilizzando il nostro ragionamento per il controllo della qualità.

Ma la capacità stessa di fermarsi dà l'impressione di una scelta al di fuori della catena deterministica o dalla casualità. Tipicamente, quindi, l'espressione delle nostre opinioni è molto diversa dall'output ovviamente completamente determinato, fluido, irriflessivo e incontrollato di un LLM.

Questo è anche il motivo per cui dovremmo diffidare degli oratori populisti, quelli capaci di parlare per ore senza fermarsi. Sono assolutamente convinti delle loro opinioni, opinioni così profondamente radicate e prive di qualsiasi giustificazione razionale da sembrare essere il prodotto di un LLM.

A chi potrei riferirmi?

Paul Buckingham

5 ottobre 2025


 
 

 Home           Caro Diario         Chi sono?          Guestbook