15 Aprile 2024

“Robot da casa con AI per il 2040”: Max Bennett va oltre gli LLM

L’autore di Breve storia dell’intelligenza ci ricorda come l’intelligenza umana ha superato le altre e, un giorno, verrà forse superata dalla AI.

Evoluzione umana e degli LLM: c‘è ancora molto da capire

Apogeonline: Leggiamo che esistono numerosi tipi di intelligenza, per esempio quella emotiva o quella numerica; conosciamo una unità di misura dell’intelligenza, il quoziente intellettivo (QI); tutti i giorni veniamo a contatto con la cosiddetta intelligenza artificiale, che secondo chi ne scrive sarebbe, in qualche misura, effettiva intelligenza. Che cosa viene chiamato intelligenza nel tuo libro e nel mondo reale?

Max Bennett: Non c’è una definizione universale di intelligenza; la parola si usa in modi diversi in settori differenti. Nell’AI trovo ragionevoli queste due definizioni:

La capacità di imparare dall’esperienza.
La capacità di risolvere problemi per raggiungere un obiettivo.

Il quoziente intellettivo non quantifica con precisione la presenza di queste due definizioni: molte caratteristiche dell’intelligenza umana al centro della ricerca nella AI sono del tutto assenti nei test di QI (per esempio abilità motorie, senso comune, teoria della mente).

Noi umani siamo sopravvissuti a seguito di quattro miliardi di anni di evoluzione, esattamente come i gatti o i funghi nel bosco dietro casa. Ciò che realmente ci differenzia è la padronanza del linguaggio: il nostro linguaggio è immensamente più ricco e complesso di qualsiasi altra forma di linguaggio elaborata da qualsiasi altra specie. Nel tuo libro il linguaggio rappresenta la Quinta Svolta, che ha riguardato solo gli umani. Nessuno è tuttavia sicuro di quali siano le radici del linguaggio. Che cosa ne pensi?

L’evoluzione del linguaggio rimane un tema controverso, poiché non esistono specie viventi che mostrano uno stadio intermedio nell’evoluzione dal nostro linguaggio ancestrale a quello attuale. I nostri cugini viventi più prossimi sono gli scimpanzé, nei quali il linguaggio non appare in natura, e poi abbiamo le molte linee evolutive di homo sapiens, tutte dotata di capacità linguistiche equivalenti. Quindi il linguaggio si è evoluto in qualche momento tra sei milioni di anni fa e l’ultima divergenza nella linea evolutiva sapiens, circa 50-100 mila anni fa. Sappiamo che i primati non umani faticano a imparare il linguaggio, anche se insegnato con cura; molti studi di alto profilo hanno provato, con vari livelli di successo, a insegnare il linguaggio dei segni o altri linguaggi simbolici a scimpanzé, bonobo o gorilla. Se la loro capacità di manipolare i simboli abbia passato la soglia per chiamarsi linguaggio è controverso, ma resta il fatto che queste capacità sono sostanzialmente inferiori a quelle di un umano adulto e non emergono spontaneamente in natura.

Perché siamo bravi con il linguaggio e i primati non umani invece no? In termini neurobiologici, le aree del cervello umano maggiormente coinvolte nel linguaggio sono le aree di Broca e di Wernicke. Aree che i primati non umani possiedono, ma usano per altri compiti. Tutto questo suggerisce (a me e a molti altri) che il linguaggio non si sia evoluto grazie a qualche nuova struttura cerebrale, ma per via di un istinto innato a impararlo: un nuovo corso di studi, per così dire. Lo vediamo nel fatto che i bambini umani prestano attenzione al linguaggio dei genitori e conducono con loro proto-conversazioni, che diventano le fondamenta per identificare i simboli e usare il linguaggio.

Gli LLM, Large Language Models, sono in effetti macchine capaci di scegliere casualmente la prossima parola (ok, il prossimo token, qui semplifichiamo) nella frase in modo sbalorditivamente appropriato. Ci sono pesi e vincoli, ma la scelta è casuale. Che ruolo ha la casualità nell’evoluzione dei nostri cervelli e dell’intelligenza? È lo stesso tipo di casualità che vediamo negli LLM? Scegliamo casualmente la prossima parola che vogliamo pronunciare?

Gli LLMs non scelgono la prossima parola casualmente, ma probabilisticamente. Casualmente suggerisce che le prossime parole/token abbiano la stessa probabilità di essere scelte. La ragione per cui gli LLMs sono intelligenti (o sembrano intelligenti, secondo il proprio grado di scetticismo) è che sono bravi a predire la prossima parola a partire da un insieme di parole precedenti. Sembrano creativi perché possono esplorare non solo prima parola più probabile ma anche la seconda, la terza e così via, il che ci permette di ottenere esiti inaspettati ma ancora ragionevoli.

Questo meccanismo è simile a parte di ciò che forma il linguaggio umano; possiamo formulare parola dopo parola in un modo che produce frasi corrette e con significato senza avere pianificato dove andare con la narrazione; a tutti è capitato di ascoltare qualcuno parlare e a un certo punto rendersi conto di non avere idea di dove voleva arrivare. Gli umani però possono fermarsi e pianificare in anticipo quello che intendono dire e valutare il proprio punto di vista prima di tradurlo in linguaggio. È questo secondo componente del linguaggio che, almeno a oggi, distingue la nostra abilità linguistica da quella degli LLM.

Nell’Introduzione a Breve storia dell’intelligenza, ricordi i passati entusiasmi per l’intelligenza artificiale, come quello per i sistemi esperti, che poi si sono raffreddati. È stato coniato il termine di AI winter, inverno dell’AI, per descrivere la stagnazione dei progressi e delle ricerche nel campo dopo il declinare di una tendenza. Dobbiamo attenderci un altro inverno dell’AI entro qualche anno, una volta svanito l’entusiasmo attuale per gli LLM?

Non credo che gli LLM ci porteranno direttamente all’intelligenza artificiale di livello umano; è probabile che per arrivarci servano più svolte importanti. Questo non vuol dire che avremo un inverno dell’AI. Gli inverni precedenti si sono verificati perché le creazioni dei ricercatori avevano pochi benefici pratici. Oggi le applicazioni vantaggiose dell’AI sono innumerevoli e, finché le tecnologie AI esistenti continuano a proliferare attraverso differenti applicazioni, continueranno ad arrivare investimenti nella ricerca, con l’obiettivo di superare le limitazioni dei sistemi attuali. È importante chiedersi se la velocità dei progressi si ridurrà prima della prossima svolta (e la società avrà tempo per capire come adottare al meglio le tecnologie), o se gli scienziati supereranno i limiti più rapidamente di quanto la società riesca a razionalizzare l’uso di queste tecnologie.

François Chollet, ricercatore Google nel deep learning, scrive sostanzialmente che l’intelligenza è consiste nell’essere capaci di generalizzare a partire dai dati e che l’intelligenza più brillante è quella capace di generalizzazione al livello di astrazione più alto a partire dall’insieme di dati più piccolo. Gli LLM, per esempio, hanno capacità di generalizzazione limitate, incapaci di andare oltre i confini dei loro modelli di addestramento. Qual è la tua valutazione?

Certamente gli LLM attuali non sono in grado di generalizzare all’altezza del cervello umano. Mostrano peraltro un grado di generalizzazione notevole, di gran lunga superiore a quanto molti ritenevano possibile ottenere con un modello addestrato unicamente sul linguaggio. Dove gli LLM dimostrano più chiaramente l’inferiorità rispetto agli umani è nella dimensione degli insiemi di dati necessari al loro addestramento. Per offrire prestazioni di livello umano, un LLM deve addestrarsi su una quantità di testo mille volte superiore a quello che l’umano più istruito avrà letto in tutta la sua vita. Resta da capire se si tratti di una limitazione fondamentale degli LLM oppure se sia dovuta al fatto che il loro addestramento avviene solo sul linguaggio; un umano impara anche da dati visivi, uditivi e genericamente sensoriali. L’attuale tendenza ad aggiungere dati visivi ai modelli linguistici inizierà a darci qualche risposta. Ritengo che abbiamo bisogno di nuove architetture e la semplice aggiunta di data visivi sarà insufficiente a portarci dove vogliamo arrivare.

Douglas Hofstadter, ricercatore di punta negli ottanta e novanta, ha scritto che l’intelligenza deve essere intimamente collegata alla percezione, più o meno che un cervello da solo non basta a sviluppare l’intelligenza e che gli serve attorno un organismo. In che modo il nostro corpo ha aiutato il cervello durante l’evoluzione a sviluppare l’intelligenza?

Il cervello si è evoluto assieme al corpo umano, esattamente come qualunque altro organo. Per svilupparsi in modo appropriato ha bisogno di un flusso costante di dati sensoriali in arrivo dal mondo e che l’umano sia in grado di interagire con il mondo stesso (per esempio manipolare oggetti per capire come funzionano oppure guarda un oggetto da più angolazioni per costruirne un modello mentale). Ne segue che, almeno se parliamo di intelligenza biologica, concordo che la percezione sia una condizione necessaria (sebbene non sufficiente) per lo sviluppo dell’intelligenza.

Una volta il settore si divideva tra AI forte (i computer arriveranno a pensare come gli umani, per esempio Marvin Minsky) e AI debole (i computer non riusciranno a pareggiare o superare l’uomo, per esempio John Searle). Dove ti saresti schierato?

Nel campo che vuole i computer capaci di pensare un giorno come gli umani. Ritengo molto probabile che gli algoritmi fondamentali che sottostanno all’intelligenza umana verranno reimplementati dentro un computer. È sicuramente possibile che le intelligenze presenti nei cervelli biologici rimarranno più efficienti energeticamente di quelle che si svilupperanno nel silicio.

Quali sono i migliori casi d’uso degli LLM nella tua esperienza? E quando sarebbe meglio evitarli, invece?

Il limite principale degli LLM è l’essere a rischio di errori, le cosiddette allucinazioni, che gli fanno fornire risposte false o ragionare in modo irrazionale e inefficiente. Per questo, le applicazioni dove la minima imprecisione crea problemi dovrebbero sempre avere un umano che interviene nel flusso di lavoro, oppure non prevedere l’uso di LLM. Ci sono invece applicazioni nelle quali al prezzo di piccole imprecisioni accettabili si possono conseguire grandi guadagni in efficienza e convenienza e gli LLM possono portare moltissimo valore. Gli LLM costituiscono ottimi copiloti per i lavoratori della creatività e della conoscenza in quanto mantengono un umano nel flusso, al quale facilitano il lavoro. Credo che in molti campi le applicazioni basate sulla convenienza offrano eccezionali opportunità di utilizzo degli LLM; un esempio è la fornitura di informazioni ai clienti che acquistano prodotti via ecommerce (Dirigo un’azienda, Alby AI, che fornisce LLM ad aziende di ecommerce).

Com’è possibile che l’intelligenza artificiale sia capace di sconfiggere il più grande maestro di scacchi ma non sia in grado di caricare una lavastoviglie?

Gli LLM sono costosi da manutenere ed eseguire e il loro miglioramento dipende in modo crescente da lavoro manuale dietro le quinte, che tappa i buchi, e meno fa veri progressi nel campo del ragionamento. Siamo al picco e possiamo attenderci solo miglioramenti incrementali, o possiamo aspettarci di più?

Ci sono ancora miglioramenti consistenti in arrivo grazie alla scalabilità dei transformer (l’architettura su cui si reggono gli LLM), che può aumentare le prestazioni. Aspettiamo nuove tecniche per migliorare il ragionamento, applicare i transformer alla robotica e rendere multimodali gli LLM. Ma non credo che i guadagni ci daranno l’intelligenza di livello umano che speriamo di ricreare; ci vogliono altri progressi sostanziali.

In OpenAI, Meta, Alphabet si parla di AGI, Artificial General Intelligence, per indicare l’intelligenza artificiale di una volta (e di domani) e AI, intelligenza artificiale, per gli LLM odierni. La distanza tra LLM e AGI è notevole e, a oggi, non sappiamo bene come la copriremo. Credi che vedremo l’AGI, diciamo, per il 2040? Immagini qualche roadmap che potrebbe diventare realtà?

Secondo me capiremo presto che il termine AGI non ci aiuta, perché mal definito. Oggi abbiamo sistemi di AI che surclassano gli umani in molte attività. Però lo fanno spesso in modi diversi da come si comportano gli umani e magari abbiamo prestazioni superiori, ma ottenute in maniere peculiari e questo conta. Per esempio, un sistema di AI che supera gli umani nella diagnostica medica può essere incapace di spiegare come ha raggiunto le proprie conclusioni; lavora meglio, tuttavia manca di funzioni essenziali che desideriamo da una intelligenza. Trovo più facile predire che capacità avranno i sistemi AI per il 2040 che predire quando avremo l’AGI (visto è che poco chiaro che cosa sia l’AGI). Fare previsioni è sempre difficile ma, in termini del tutto speculativi, affermo che per il 2040 avremo robot domestici capaci di sostituire un umano quasi in ogni compito e molte forme di lavoro della conoscenza saranno state sostituite in tutto o in parte dalla AI.

Immagine di apertura originale della redazione.

L'autore

Max Bennett

Max Bennett è imprenditore e ricercatore. Cofondatore di alcune aziende di AI tra cui Bluecore, una startup che sviluppa soluzioni di marketing basate sull'intelligenza artificiale, detiene diversi brevetti per tecnologie di AI e ha pubblicato numerosi articoli scientifici sui temi della neuroscienza evolutiva e dell'intelligenza. Laureato alla Washington University di St. Louis con lode in economia e matematica, è stato inserito nella lista Forbes Under 30.