Agenti AI con Tommaso Furlanello

In questa conversazione esploriamo il futuro degli agenti AI con Tommaso Furlanello, uno scienziato di Machine Learning con un dottorato in Neuroscienze presso la USC. Con oltre un decennio di esperienza, Tommaso ha sviluppato sistemi predittivi all’avanguardia utilizzando teoria dei giochi, neuroscienze e deep learning. La sua ricerca spazia dalla previsione della domanda, alla bioinformatica, alle interfacce cervello-computer e alla visione artificiale.

Tommaso Furlanello è un esperto leader nell’AI, in particolare nello sviluppo di agenti intelligenti che possono percepire, apprendere e interagire con ambienti complessi. I suoi contributi significativi includono nuovi metodi di addestramento per agenti AI, come le Born Again Neural Networks, che superano i loro insegnanti in vari compiti. Il suo lavoro copre anche la modellazione generativa, la distillazione delle conoscenze e la distillazione delle politiche, con applicazioni nella visione artificiale e nel modellamento del linguaggio. Discutiamo delle ultime innovazioni nella creazione di agenti AI e della loro capacità di collaborare all’interno di società di agenti AI.

Di seguito una trascrizione revisionata della conversazione.

David: Proseguiamo con le conversazioni attorno all’intelligenza artificiale, in particolare attorno agli agenti AI. Che cosa sono, perché sono utili, perché c’è così tanta attenzione attorno a loro? Tommaso, benvenuto a Qual è la domanda live! Ciao a tutti, grazie mille per l’invito. Grazie per essere qui. A me piace iniziare sempre queste conversazioni dando un attimo di contesto prima di entrare nel merito di quello di cui parliamo, chiedendoti di raccontarci un po’ di te, il tuo percorso accademico, imprenditoriale. Che cosa stai facendo oggi e anche magari perché hai scelto questo particolare percorso.

Tommaso: Mi occupo della ricerca a HK3Lab, che è un laboratorio di ricerca privato che non ha obiettivi di fare prodotti, ma di fare ricerca, con fonti di finanziamento pubbliche e private, facciamo consulenze. Con l’obiettivo di mantenere la ricerca come se fossimo un qualunque altro laboratorio di eccellenza universitario o privato dell’industria. Questo ovviamente dovuto alla fortuna dei contatti e le co-authorship di che ci permette, pur essendo in Italia, di lavorare remotamente con gente fantastica e continuare il lavoro competitivo. 

Io parto figlio di accademici in un paesino in Trentino, quindi diciamo che ha dovuto giustificare molto il comportamento di lui e quindi ha passato tempo a generare modelli di comportamento delle persone e cercare di spiegare le dissociazioni rispetto a quello che avrei fatto io, ecco. E questo ha portato a studiare economia, econometria in realtà, all’inizio, e con un focus, diciamo, più sulla parte teoria dei giochi, ma anche la parte empirica.

Quindi mi sono occupato di capire quali sono gli strumenti matematici per descrivere la realtà così complessa del comportamento. Ho sempre avuto questa, non so, intrinseca paura di sbagliarmi, di assumere cose sbagliate rispetto agli altri, che mi ha portato ad avere un approccio molto empirico. Questo mi ha avvicinato tantissimo e fatto allontanare dall’economia al machine learning, che invece che occuparsi, diciamo, di dati retrospettivi, si occupa di previsione. Quando non possibile, di creare situazioni sperimentali in cui è possibile stimare la capacità predittiva di un modello. Quindi… diciamo quello è stato il mio punto cardine: il focus attorno al trovare un principio per non prendermi in giro da solo. E questo principio è stata l’idea delle previsioni out of sample del transfer learning e poi quelle che sono ora i cruci cardine dei successi anche del deep learning.

David: Parlando un attimo di economia, ci sono tantissime persone che investono energie nello sviluppo di algoritmi che cercano proprio di fare quello che tu hai detto, secondo te è inutile, magari non impossibile, ma al momento non è quello che hai scelto, cioè di prevedere come andrà il mercato azionario, come andrà l’economia in un modo o in un altro. Mi chiedo se hai concluso che non ne valeva la pena di concentrarti su quell’area pur avendo la studiata per qualche decisione di principio oppure in base a esperimenti che hai fatto.

Tommaso: Allora, intanto ho fatto sia la triennale che la specialistica all’estero di economia, quindi ci sono andato abbastanza, ho insistito abbastanza, potevo arrendermi molto prima. Ho fatto 240-300 crediti universitari, comunque. 

Allora, intanto l’economia è una cosa molto complessa, una disciplina molto ampia che di fatto va da prendere pezzi della storia, pezzi della psicologia, fino ai mercati finanziari e il modello delle istruzioni. Istituzioni globali e monetarie e fino agli equilibri geopolitici e lo scambio internazionale. Tipicamente in economia, perché questo è così ampio e perché c’è così tanta dipendenza storica delle dinamiche, dalle istituzioni, delle scelte umane che sono state fatte, non è che stiamo parlando di sistemi naturali che emergono sistematicamente, ergodicamente in più parti del mondo. Stiamo parlando di un’unica struttura con una lunga storia. 

Il grande contributo di Herbert Simon all’economia, questa idea del lavoriamo nella scienza dell’artificiale, quindi lavoriamo nella scienza dell’artificiale e ogni singolo esempio, ogni astrazione su cui lavoriamo in realtà è il risultato di qualcosa, può essere spiegato dalle azioni di qualcuno prima. E questo processo rende il pensiero molto difficile e porta in realtà a delle artificiali settorizzazioni, modularizzazioni dei settori economici. C’è il macroeconomista, il microeconomista e ognuno di loro astrae il mondo a una fiaba rilevante solo per le proprie dinamiche. Penso che questa cosa qui abbia il problema – in fisica sarebbe la renormalizzazione dei gruppi, cioè quali sono le relazioni che ci sono tra una astrazione e l’altra e come le conseguenze a una astrazione si ricombinano all’altra. 

E in economia in realtà ha tutta una serie di bellissimi teoremi di impossibilità di trasferire le… identificare il comportamento individuale da quello aggregato, prevedere il comportamento aggregato da quello individuale, che poi vengono ignorate in pratica e tante altre cose.

Poi c’è la finanza, dove la finanza invece è un aspetto totalmente diverso, completamente pratico. Lì devo dire che uno dei miei libri preferiti attuali di machine learning è di finanza, ed è Advances in Financial Machine Learning, di Lopez Prado. E invece è un libro stupendo, empirista, su come mettersi in una situazione tale per cui c’è una lieve speranza che il modello che hai stimato, che nel tuo training set sembra funzionare, abbia una possibilità di funzionare nel mondo reale. Diciamo che in realtà per me è stata poi la transizione vera non è neanche una scelta totalmente. Sì questo è proprio uno dei migliori, purtroppo richiede di capire la finanza per invertire le lezioni al machine learning. Penso sarebbe molto utile per tutti quelli che ora fanno sistemi di language model, che interagiscono con utenti e che fanno decisioni nel mezzo. Purtroppo richiede capire la finanza molto bene per derivare le lezioni di computer science, diciamo. Però questo è un libro che mi sento di raccomandare, che diciamo qualunque studente o collaboratore junior ha sempre obbligato a leggere in qualche maniera perché la mia versione è scritta molto peggio della sua.

David: Ti ho fatto la domanda per commentare un attimo su economia e finanza, perché poi magari ci ritorneremo sopra. Appunto ci sono tantissime applicazioni dell’intelligenza artificiale come viene praticata oggi su questo e magari… Se e quando l’intelligenza artificiale ci permetterà di capire meglio anche i processi cognitivi e il comportamento umano, questa abilità sarà ulteriormente migliorata. 

La scena del ciclo della fondazione di Isaac Asimov dove la presunta scienza futura della psicostoria si applica esclusivamente su grandi gruppi di persone, almeno un pianeta in una galassia con milioni di pianeti abitati, è bellissima. Faccio un piccolo spoiler: nel momento in cui i scienziati della seconda fondazione, con un linguaggio matematico molto astruso comunicando in modo telepatico fra di loro, rilevano, rivelano ad altri e anche al lettore che sono riusciti invece ad applicare la psicostoria all’individuo. E quindi cominciare ad intervenire e a influenzare l’andamento della storia futura della galassia modificando i comportamenti, influenzando i comportamenti degli individui.

Tommaso: Credo più all’idea che sia possibile fare un modello di un individuo che dell’aggregato. L’aggregato umano ha sorpreso moltissimo nella storia ed è molto difficile immedesimarsi in aggregati del passato, in culture diverse, ma eroizzare singoli umani del passato viene molto semplice. Proiettarci in eroi antichi viene bene.

David: Visualizzo il commento di Morge che ci segue. L’idea di una AI che predice il futuro dei mercati azionari gli ricorda il film Pi Greco. Penso di averlo visto ma non mi ricordo la trama, non so tu Tommaso.

Tommaso: Io ricordo i coinquilini che l’hanno guardato tutta una notte più volte mentre io preparavo un esame all’università. Non l’ho visto, ne ho sentito degli spezzoni e più volte sono passato davanti a loro che dormivano guardandolo, devo ammettere. Io penso quella sia un po’ una cosa come il discorso del di cosa ne sarà della moneta nel momento in cui il mercato è completamente, dove tutto il lavoro è fatto dall’intelligenza artificiale. Quei discorsi un po’ utopici in quella maniera. Nel momento in cui il mercato finanziario è completamente fatto dalle cose più intelligenti possibili, a quel punto dovremmo davvero essere nella situazione della teoria dei mercati ottimali e del fatto che il price ha davvero già dentro tutte le informazioni. Quindi… tutta la capacità di guadagnare delle transazioni non esiste più e i mercati diventano esclusivamente processi di segnalazione.

David: Non sono d’accordo perché ci sarà una naturale competizione per risorse e sarà interesse di gruppi di robot o di gruppi di AI in competizione con altri gruppi di robot e di AI a eventualmente nascondere delle informazioni, a dissimulare, a trovare una soluzione ottimale al problema a tante variabili che hanno di fronte, che eventualmente ottimizza nel breve o medio termine perché comunque è un’ottimizzazione a lungo termine al di fuori delle loro capacità a prescindere.

Tommaso: Però questa simulazione va fuori dalla situazione asintotica, ci sono tutte le AI talmente buone che c’è il ragionamento, non dico morale kantiana, se tutti che allora che. Però un conto è fare quel ragionamento lì nel momento in cui uno si ferma a un punto di mezzo. Ci sono tantissimi livelli: qual è il livello energetico? C’è la fusione nucleare? Qual è il bandwidth comunicativo? Esiste privacy? L’hardware è owned dai software? A quel punto diventa un mondo. Poi se finiamo a parlare di safety probabilmente questa è la mia critica: c’è il mondo attuale, ci sono i mondi dove prendi delle di asintoti rispetto a delle assunzioni matematiche condivise, e poi c’è tutto il di mezzo che su cui sono molto ignorante diciamo così, su cui non ho troppe idee.

David: Torniamo appunto a quello che hai fatto avvicinandoti al mondo del machine learning e quello che stai facendo adesso, come hai detto, e poi arriviamo agli agenti AI. Come vedi gli attuali approcci e modelli, i large language model addestrati su una quantità enorme di dati, con hardware molto potente e anche costoso, che però hanno dato dei risultati inaspettati e sorprendenti anche per gli esperti? Sembra che tuttora stiano portando a ritorni sugli investimenti che non hanno ancora raggiunto un plateau.

Tommaso: Io sono hyped, sono contentissimo da parte mia nel senso… naively sono in maniera molto ingenua le cose che ci sarebbe piaciuto all’inizio del dottorato nel momento in cui abbiamo visto – il dottorato è iniziato nel 2015 quindi nel momento in cui era stato messo lo stampino che erano due anni che Alex Net era il medio, stava uscendo VGG. Da lì a poco sarebbe uscito il paper di DeepMind su Deep Reinforcement Learning. Diciamo, quello era il momento di transizione, c’erano ancora gli scettici, noi dicevamo, guarda che se prendi questa cosa, il mondo va avanti, quando siamo vecchi, le cose fanno almeno questo. 

Poi ho visto il lavoro interno da Amazon, ho lavorato, uno dei primi, Amazon ha sempre avuto un gruppo di machine learning per il recommendation system, ma nel 2016, mi sembra, hanno ristrutturato in un gruppo AI, che è quello ora di AI, quello di… di Suami che è ora il VP di Machine Learning. Io ero lì con Alex Moore e Niman Antumar che è diventato API a NVIDIA e io sono stato lì. Questo è un momento fortuito per me che ho fatto questo internship arrivando da Applied Machine Learner che ho lavorato per un po’ di anni prima su dati economici, poi su dati di Brain Science, dati di risonanza magnetica e elettroencefalogramma. Mi sono trovato nel mezzo e lì il language model già c’era, c’era un effort nel 2015-2016 da parte di tutti, c’erano implementazioni di LSTM che facevano per cercare di creare i commenti, fare i summary di tutto. 

Io sono… Personalmente molto felice perché c’è stata l’eleganza dell’architettura che ha permesso la scalabilità in termini hardware e tutto l’impegno esercito di ingegneri che si è girato a lavorare e la readiness, la preparazione di NVIDIA nell’adottarsi nella costruzione delle accende. Prima quelle di 100, 100. La gente non si rende conto, perché ora siamo un po’ abituati a Nvidia, ma prima delle V100, che sono il modello, prima delle A100, che sono il modello su cui, la scheda grafica su cui è stata trainata, sostanzialmente, il GPT-4, la generazione precedente rispetto a quelle che stanno utilizzando ora. Sono arrivate praticamente da un accordo tra Nvidia, Google e Amazon in cui hanno visto lunghissimo e hanno fatto questo investimento per Data Center Ready, per schede da data center e sull’infini band, cioè sulla connettività tra queste schede, che è la cosa che ha creato la scalabilità drastica assieme all’architettura che permette di sfruttare questa separazione.

Quindi l’algoritmo in sé è modulare nella stessa maniera in cui è modulare l’hardware. Il risultato è stato esattamente quello che… che tra virgolette doveva succedere ma nessuno di noi era ottimista abbastanza per crederci. Quel senno di poi ha dato una direzione, quella che poi per molti è stata, diciamo, messa su carta nel paper di Richard Sutton, la bitter lesson, la lezione amara, cioè questa idea che lottare contro gli algoritmi che funzioneranno quando scalati, cercando invenzioni strane, dicendo il cervello non fa così, e quella è una bitter lesson. I computer procedono, la nostra capacità di computer accelera, la nostra capacità di sfruttare l’energia migliorerà e quindi… C’è un incentivo fortissimo per gli algoritmi che possono scalare con più computer rispetto a quelli che richiedono più…

David: E perché conclude che questa è una lezione amara invece che una conclusione o un processo…

Tommaso: No, perché ci sono… perché per lui insiste che questi algoritmi sono quelli da fare da 25 anni, e ora ha ragione, da 25, 35 anni, e ora ha finalmente ragione. Però per 20 anni non gli è stata data ragione, sono stati spesi milioni di euro in termini, milioni, probabilmente miliardi, vedo DARPA, è da qualche parte evidenziato, quindi questa idea, l’idea contraria – io troverò un’idea più intelligente di risolvere questa cosa, che è una chiara definizione matematica, che però ha un ON un po’ difficile – è un problema momentaneo, non futuro. Diciamo che sono cose che in retrospettiva sono povi, però sono dei pensieri, delle moltiplicazioni, che per il cervello umano sono un po’ difficili da fare. In retrospettiva ora mi sembra normale, ci vivo dentro, lavoro con queste cose, però non era… e mi dico, è giustificato che questo sia avvenuto rispetto a quello che vedevamo 4-5 anni fa? Assolutamente, però non mi sarei mai aspettato 5 anni fa. E non c’è una domanda in più su cosa penso? Forse ho detto troppo altro. No, no…

David: Va benissimo, va benissimo. Questa considerazione è in linea con quello che anche altri sentono, cioè un entusiasmo per i risultati sorprendentemente validi. Ti confermo, io utilizzavo le reti neuronali con schede dedicate negli anni 80 e le reti che si riuscivano a creare ed eseguire evidentemente erano molto primitive. Ma già allora c’era un po’ la sensazione che le conclusioni originarie sulla inabilità delle reti neuronali di combinare granché, quando queste avevano un singolo layer, un singolo strato intermedio, fossero conclusioni precipitose. Ma evidentemente nessuno aveva avuto il coraggio di percorrere la strada che si è aperta con i risultati di AlexNet dal 2012 in poi. Quindi abbiamo subito un ritardo di una trentina d’anni su una tabella di marcia che si poteva percorrere diversamente. Allora, se non sei d’accordo sentiti libero di contragliermi.

Tommaso: No, penso che alcune cose non sono d’accordo. Io sono uno di quelli che… ripeto io sono molto materialista mi importa del mondo – vorrei dire reale però poi magari troppo vado in conflitto con i pensieri più – esprimerei sono molto in conflitto, sono molto mi interessa del mondo, che quindi le idee, la relazione, le idee sono molto facili da relazionare in termini di qual è la loro relazione nel mondo. 

Io non penso che cose come support vector machine o random forest che alla fine hanno funzionato molto bene attraverso tutti gli anni 90, ma in realtà funzionano benissimo anche adesso per un sacco di problemi e funzionano benissimo in combinazione con modelli pre-trainati tipo embedder o language model. Insomma se estrai le feature, estrai la rappresentazione numerica dei tuoi dati con una neural network, poi puoi tranquillamente usarti quei vettori in modelli tradizionali usando infrastrutture molto più semplici. Le applicazioni a cui…

David: Le applicazioni a cui faccio riferimento, fine anni 80, inizio anni 90, erano proprio di riconoscimento dei caratteri che avevano delle performance ottime su anche caratteri scritti a mano, lettere o numeri scritti a mano, e erano verticali, ottimizzati, pre-addestrati su hardware specializzato.

Tommaso: Arrivo da un laboratorio più di ingegneri di me che faccio un altro che costruire chip con algoritmi da 4 joule per far vedere che riuscivano a fare la maggior parte delle stesse cose, soprattutto queste di localizzazione. Poi in realtà queste più di natural vision quindi di localizzazione di facce, entità, persone in the wild usando rasterizzazioni, cose super semplici invece che neural network. Invece era quello che usava le GPU, fortunatissimo.

David: Le capacità dei sistemi di intelligenza artificiale vengono sfruttate, vengono sondate attraverso un processo di mappatura quasi casuale. Ci sono cose che non sappiamo che sanno fare perché non gliele abbiamo ancora chiesto. E nel momento in cui gli chiedi “Ma tu sai fare questa cosa?”, il modello dice “Ma certamente basta che me lo chiedi e lo faccio”. Naturalmente sto esagerando e ci sono limiti che capiamo, anzi misuriamo attraverso i benchmark di quello che i modelli sono in grado di fare, ma anche lì troviamo metodi perché i risultati possano migliorare per come impostiamo la domanda e come magari invogliamo, induciamo il modello a essere più… riflessivo, quasi introspettivo nel valutare le proprie conclusioni. 

Che cosa sta succedendo adesso che prepara il terreno, in qualche maniera lo si sta già percorrendo, per rendere le AI più in grado di effettuare in autonomia delle azioni? Cioè che cosa ci fa arrivare agli agenti AI? Che cosa li caratterizza e perché adesso?

Tommaso: Allora, io penso che qui c’è una cosa che in realtà è un problema grossissimo dal punto di vista filosofico, che è che cos’è un agente? Quando siamo nel punto di AI qual è la differenza tra un modello predittivo e un agente? 

E in qualche maniera penso che tornando magari alle cose più fisiche un modello predittivo è un’analogia, è la cosa, è l’oggetto che studia un processo stocastico, quindi c’è una sequenza di misurazioni che noi possiamo assumere in una meccanica classica, non essere influenzate da quello che sta osservando. E un modello predittivo si occupa di prendere questi input, ora sto esagerando, sto facendo delle iperboli ovviamente, poi si può passare tranquillamente da una rappresentazione all’altra. Un modello predittivo si occupa di… prevedere un processo stazionario in cui la stessa relazione tra passato e futuro continua ad avvenire indipendentemente da quando osservi il sistema. Si occupa di dire “Ok, sto vedendo un fiume, c’è un’equazione che dice dato che una molecola d’acqua era qui, allora sarà qui” e mi occupo di spiegare questo.

Un agente è un sistema più complicato, è un sistema diciamo cibernetico, tornando… alla nascita del nostro field, anche ovviamente del Singularity Institute, un sistema in cui non c’è soltanto un processo stocastico ma c’è anche una capacità di influenzarlo. Forse qualcuno che lo influenza, o c’è comunque un feedback loop tra lo stato del processo stocastico e degli input, delle azioni, un altro processo che viene chiamato policy poi in termini moderni che influenza il processo stesso. Quindi sono dei processi riflessivi in cui lo stato attuale determina degli output che rientrano all’interno del sistema.

Quando questo sistema… è ben separato tra quello che fa le decisioni ed emette le azioni e il processo stazionario di fondo, siamo nel setting dell’agente environment, che è appunto il setting fondamentale del reinforcement learning che deriva dalla teoria del controllo e spesso viene chiamato MDP, Markov Decision Process, il processo decisionale di Markov, cioè un processo decisionale in cui l’outcome delle azioni dipende da questo stato del sistema, che è accessibile all’agente. 

La variante secondaria, più complicata dal punto di vista teorico, molto più realistica, è quella del partially observable Markov decision process, cioè il processo di Markov che è solo parzialmente osservabile. Una cosa più simile alla visione moderna della fisica. Cioè l’idea è che non è possibile osservare tutto e che le azioni che compi sono determinanti per influenzare cosa potrai vedere e non vedere del sistema. Questo è il setting in cui vivono gli agenti normalmente.

Quindi gli agenti sono dei processi che sulla base di un loro stato, una rappresentazione numerica, potrebbe essere testuale nel caso di agenti di linguaggio, si compiono delle decisioni. L’ultima parte poi importante è il concetto del reward, del processo o di valutazione o di goal, obiettivo, tutte visioni che possono essere rimappate l’una all’altra. Cioè l’idea che non tutti i comportamenti che può avere questa agente sono uguali, ma alcuni di questi comportamenti portano il mondo all’interno degli stati più desiderabili rispetto agli altri. 

E quindi mettere assieme questo tipo di concetti – un mondo solo parzialmente osservabile che segue delle sue regole autoregressive, che ha delle sue dinamiche che possono essere parzialmente influenzate da qualcosa che può essere compartimentato, le cui dinamiche interne possono essere compartimentalizzate rispetto a quelle del mondo, e un processo che dice che la gente preferisce questo stato del mondo rispetto all’altro. Queste tre componenti – l’environment, il learning process della gente, e la reward function della gente – definiscono un sistema ad agente, un sistema di reinforcement learning. 

E questa è un framework che esiste nella scienza, che è la base dell’economia, che è la base della teoria delle decisioni statistiche, che è la base del reinforcement learning, che è la base della teoria dei giochi, ed è la definizione di agenzia che arriva probabilmente… si può trovare da molto prima, ma che è formalizzata da Pareto in poi. Quindi questa idea di agenti motivati da una funzione di valutazione, quindi da che una persona ha un comportamento, un agente.

Qui sto facendo, purtroppo c’è il vecchio economista in me, con cui agenti e persone sono la stessa cosa. Nel computer science diventa più difficile, spesso si va al contrario, spesso la persona è l’environment e l’agente interagisce. 

Per dire, un esempio di agente che magari non sembra essere un agente è ChatGPT nella variante Chat. Cioè quando i language model vengono addestrati a interagire con una persona. Quindi non vengono semplicemente addestrati al “prevedi il prossimo token, prevedi la prossima parola” in base al livello di semplificazione che vogliono dare, ma “la prossima sequenza di parole deve essere la sequenza preferita dall’interlocutore con cui stai parlando.”

Questa situazione di fatto appunto che viene chiamata reinforcement learning from human feedback nella variante in cui il modello viene aggiornato sulla base dei suoi output è una situazione in cui la gente è il language model e l’essere umano è il suo environment. Cioè GPT è d’accordo con te dal punto di vista formale. La parte di training purtroppo è spesso d’accordo con me troppo, spesso mi sento un po’ troppo selection, un po’ troppo. E diciamo questo punto tra l’altro è proprio quello che sto dicendo, cioè l’obiettivo di questo modello è di essere d’accordo con te, di fare qualcosa in comune con te per cui il suo comportamento ti dà la massima soddisfazione. E il fatto – e questa è quindi c’è di fatto un gioco in cui c’è una tua reward, un suo reward – e entrambi state giocando a massimizzare il tuo stesso reward, quindi sia l’assistente che te state interagendo per massimizzare la felicità dell’utente. 

Ora, qui è molto interessante come entrino dentro anche altre cose, no? Ora si sta iniziando a parlare di, si è sempre parlato di safety, di quello che non tutti i desideri dell’utente sono uguali dal punto di vista dei provider, no? Quindi non tutti i desideri degli utenti, tipo quelli potenzialmente pericolosi per gli altri, non dovrebbero essere soddisfatti da parte dell’assistente. Ma ora si sta anche iniziando a parlare di introdurre pubblicità all’interno dei modelli per… sostenere gli abbonamenti gratuiti e soprattutto quelli che ricercano nel web. E a quel punto diventa un gioco molto più complicato, diventa una situazione di teoria dei giochi in cui c’è l’utente, c’è la persona, c’è il proprietario del modello, c’è il cliente che sta pagando il proprietario del modello per avere del marketing e tutto ciò. 

Diciamo che questi sono problemi che già ci sono mentre da una parte di agenti si parla con una strazione di agenti puramente computer science come di cose il futuro di fatto. La situazione agentica e il problema principale agente, quindi di allineamento degli incentivi, allineamento degli incentivi del training, allineamento degli incentivi in inferenza del modello rispetto ai clienti, secondo me sono cose che già persistono e certo non sono loop completamente autonomi, sono loop che passano attraverso processi decisionali di OpenAI, retraining dei modelli, cambi di policy e cose del genere. In un futuro… Mi sono un po’ distaccato dalla tua domanda per provare a dire ci sono già questi loop. Il punto è quali componenti ora attualmente umane, attualmente burocratiche, attualmente ultradispendiose come il training verranno completamente astratte e digitalizzate, diventeranno prodotto, venduto da qualche compagnia che si occupa specificamente di alcune di queste componenti. Dal punto di vista poi formale è molto facile andare a vedere quali sono le cose che questi modelli devono avere per poter funzionare perché questo è una cosa che abbiamo studiato per molti anni, cioè qual è la relazione tra alcune assunzioni del processo di Markov sottostante e le capacità che l’algoritmo deve avere. E quindi mi fermo magari qui se vuoi andare avanti su qualche domanda visto che sto passando se non andrei troppo oltre.

David: Hai dato una definizione di agente software che è molto generale, quindi è possibile programmare e mettere in moto agenti software in base alla tua definizione anche con un insieme di dati o hardware che sono molto inferiori rispetto allo stato dell’arte adesso. Dato questo, c’è una ragione che tu vedi per cui l’attenzione è particolarmente focalizzata oggi sulla prossima generazione di soluzioni basate sui large language model che si prevede abbiano una funzione ancora più spinta in questa direzione di agenti?

Tommaso: Questa era una battuta che stavamo facendo con un amico a Google che si occupava di robotica durante il dottorato e poi ha mollato perché era una cosa molto scomoda e ora sta tornando il concetto di embodied agents, sta tornando di nuovo. È uno dei mercati dal punto di vista venture capitalist più hot, molti dicono in bolla, altri dicono no, mancano svariati zeri. 

La battuta con loro era “Beh certo, il reinforcement learning è un po’ più semplice ora che gli puoi fare delle domande al tuo modello”. Cioè il fatto che la comunicazione con il modello, per quanto magari imperfetta, per quanto potenzialmente fallace, per quanto forse completamente allucinata nella testa del lettore, avviene in linguaggio naturale – esiste una capacità di… è una cosa complessa la rappresentazione. 

Ok, mettiamo così: non penso che sia molto diverso dal punto di vista del modello che una cosa sia rappresentata in termini di immagini di una misurazione o l’altra del mondo, ma il fatto che lo stato cloud put e l’input di un modello siano cose che noi siamo in grado di applaudire all’interno della nostra mente, del nostro di noi stessi come processor computazionali è la cosa che li rende fantastici. Quindi l’idea che a questo punto possiamo prendere l’output di un calcolo e uploadarlo direttamente nel nostro cervello alla Johnny Mnemonic, in una certa maniera, perché è linguaggio. E questo porta anche a riconsiderare quanto interessante e fondamentale il linguaggio sia e le… la fantastica invenzione del linguaggio, soprattutto della scrittura, della trasmissione delle informazioni tra più generazioni e tante altre cose che rendono gli umani speciali. 

Dal punto di vista del language model, allora, ora ci sono… La prima cosa fondamentale è uno dei più grandi problemi del reinforcement learning è l’efficienza in termini statistici. Cioè, c’hai bisogno di tantissime sample, perché se uno si immagina che il mondo, la complessità del mondo, è ridotta a dire “queste zone del mondo mi piacciono, queste zone del mondo non mi piacciono”, o se ti va bene c’è un ordine, “queste zone del mondo mi piacciono di più di queste”. Capire il mondo diventa molto più difficile rispetto a un setup in cui hai percezioni visive, descrizioni linguistiche, ti arrivano informazioni da altre persone che hanno già avuto quell’esperienza, eccetera. 

Quindi il grande vantaggio che ora c’è… con i language model è che utilizzando un language model hai delle informazioni per kickstart una reinforcement learning policy. Quindi tu sei in grado di usufruire di tutto quello che conosci il language model per avere una astrazione dell’environment in cui il tuo agente deve comportarsi che non parte da zero. Quindi attraverso magari le capacità di in context learning del modello non hai nemmeno bisogno di fine tuning o addestramento, ti trovi direttamente un supporto, un, diciamo, un… Qui dovrei andare, mi verrebbe da fare uno step in più sul concetto di, sulla separazione. 

Prima dicevamo appunto che le cose importanti sono l’environment, la value function e l’agente. Dal punto della vista dell’agente la comprensione dell’environment viene chiamata il world model, cioè la capacità dell’agente di prevedere il futuro condizionale alle sue azioni. Questo oggetto qui è un oggetto su cui noi abbiamo lavorato abbastanza, è sostanzialmente everything you need for reinforcement learning. Cioè nel momento in cui tu sai come funziona il mondo, implementare qualunque policy all’interno di quel mondo è semplicemente un ragionamento di planning, di pianificazione all’interno del tuo modello mentale. 

Mentre nella situazione in cui tu hai una policy, è molto difficile passare da questa policy – quindi se una volta ti viene detto che questa è la cosa giusta da fare al mondo, mentre ti ritrovi in una nuova situazione in cui l’opposto è vero – diventa molto difficile generalizzare. Quindi c’è questa idea che è molto più facile passare da una comprensione del mondo a una comprensione di come ci si comporta nel mondo, che da una comprensione di come ci si comporta in un mondo a un altro, se ha senso.

Quindi l’idea che la definizione positiva di che cosa avviene… causalmente rispetto a cosa è molto più potente del “cosa devi fare”, perché il “cosa devi fare” dipende dalle circostanze, mentre il modello del mondo è ciò che definisce che cosa è una circostanza e che cosa è un’altra. E language model è il modello del mondo gratuito per gli agenti.

David: E allora sicuramente quello che hai detto all’inizio – cioè che questa interfaccia universale che permette di creare degli input verso il nostro cervello e la nostra consapevolezza ed elaborazione futura – sia una feature che è un bug, nel senso che ritengo proprio perché fino a qualche anno fa non abbiamo avuto la necessità di farlo, abbiamo una completa apertura e una relativa assenza di strumenti di difesa nel momento in cui la programmabilità della nostra consapevolezza attraverso il linguaggio viene… sfruttata in termini avversari. 

Assolutamente il fatto che oggi i computer – per dirlo in generale – siano programmabili con il linguaggio naturale è una conquista gigantesca che abbiamo appena cominciato ad esplorare e questo farà ulteriori passi importanti. Perché negli anni ’60 i computer erano in stanze separate dove solo se avevi il camice del laboratorio potevi entrare e permetterti di toccarli e chiunque doveva interfacciarsi con i computer doveva farlo con… interposte persone e livelli enormi di complessità e di astrazione. Poi attraverso i personal computer si è eliminata questa distanza, ma tuttora solo gli specialisti, non specialisti, gli appassionati, si mettevano a smanettare e cercare di capire i computer. Le interfacce grafiche hanno fatto sì che potessimo comandare i computer in modo molto più diretto e anche senza dover imparare i comandi della linea di comando, il DOS o Linux che fosse. E adesso stiamo arrivando alle interfacce conversazionali, scritte o parlate, dove effettivamente la programmazione nostra del computer e del computer di noi sono quella che oggi abbiamo di più diretto. E senza intermediazione, senza filtri. 

Facciamo un salto. Prima hai detto all’inizio, mi sono preso nota mentale, lo voglio introdurre adesso, che non sei particolarmente preoccupato o non sei particolarmente d’accordo rispetto alle posizioni sulla safety and security, quindi la sicurezza, l’affidabilità, l’allineamento dei modelli rispetto a quelli che sono gli obiettivi umani. E quindi ti chiedo di commentare su questo riguardante i sistemi come sono oggi e poi magari verificare e dirci se la tua posizione rimane uguale anche nei confronti di sistemi agentici ancora più spinti, quelli che ci aspettiamo in un prossimo futuro.

Tommaso: Allora… Intanto, prima di tutto penso che questo problema degli esseri umani di avere del canale percettivo linguistico che li permette di riprogrammare, che li mette a rischio di riprogrammazione interiore, sia da una parte un rischio ma anche il motivo per cui siamo riusciti a crescere. Penso però che questo sia un problema umano a prescindere dall’intelligenza artificiale, cioè penso sia un problema del mondo moderno e sia proprio un problema di bitrate. Abbiamo più che saturato il bitrate che un essere umano può ricevere e discernere probabilmente con Italia 1. Almeno nella mia generazione. Però quindi quello l’abbiamo più che – quello è un problema dell’umanità appunto che va risolto, possiamo fare giorni di conversazione. 

E secondo me è il più grosso problema che c’è dal punto di vista di security e non di safety di security che è quello del fatto che le compagnie che attualmente, sia quelle closed source che quelle open source, che sono più legate, più responsabili della produzione dei language model, l’hanno fatto vendendo advertisement, che di fatto è esattamente questo processo avversario di cui abbiamo parlato fino adesso, implementato da altri esseri umani. Cioè Google, Facebook, Microsoft – forse l’unica, no, ma in realtà massivamente sì – vivono di ad revenue e l’ad revenue… e quando viene formalizzato ha esattamente la stessa, ha esattamente la stessa forma del… 

Ma penso che comunque c’è un contratto tra OpenAI e Coca-Cola e probabilmente non lo sai ma stiamo già ricevendo i token giusti per per bere più Coca-Cola e te ne accorgerai due anni da ora quando fai la media e la… il canale principale è quello cioè il fatto che fino a che l’assistente è un oggetto il cui obiettivo è la massimizzazione della felicità dell’utente è ben chiaro il problema quale sia.

Ci sono tutta una serie di esagerazioni su cosa può succedere e cosa no nel momento in cui l’obiettivo della gente non è ben definito, ci sono compagnie di mezzo, eccetera, che vogliono ottenere cose, governi più che compagnie, se devo preoccuparmi, che vogliono ottenere cose, la direzione è molto diversa. 

Dal punto di vista di safety, io non sono d’accordo, diciamo, su tutti i scenari catastrofici dell’intelligenza artificiale che prende il controllo del mondo. Non sono disposto a discuterne, tra virgolette, perché per arrivare lì ci sono tutta una serie di… cruci umani su come sopravviveremo come umanità a livello geopolitico, economico, a livello di non farci delle guerre mondiali che mi preoccupano molto di più da preoccuparci di quale sarà il ruolo nel mondo che cambia, nella struttura attuale. Abbiamo un paio di guerre negli ultimi cinque anni che ci sorprendono che stiano avvenendo, e su almeno delle parti del conflitto c’è un sacco di intervento di intelligenza artificiale. 

Io ora vado oltre la mia competenza, però è stato ben chiaro che buona parte del primo attacco terroristico a Israele che ha fatto iniziare il tutto sia stato dovuto a un attento studio degli algoritmi di difesa e di uno sviluppo di strategie avversarie nei confronti di quegli algoritmi di difesa, in parallelo a un rilassamento della supervisione umana. Quelle cose erano in piedi e questa è una cosa che avviene sistematicamente. I video dei droni li abbiamo visti tutti e quelle secondo me sono le cose preoccupanti. Ma non sono tanto le cose preoccupanti di dire “dobbiamo fare delle leggi per fare quello, bloccare questo o quello”. Sono dei meccanismi al mondo per cui la violenza avviene che vanno molto di fuori insomma del potere delle mie parole. 

Però penso che dovremmo almeno farlo – mettere un sacco di attenzione nella comprensione di questi problemi e da cittadini c’è poco da fare. Però non vorrei che ci trovassimo addosso perché stavamo parlando di fantascienza e di colpo ci troviamo a dover vedere cosa si fa se arrivano 500 droni nel tuo villaggio. Quindi quindi…

David: Cercando di capire e riassumere quello che hai detto, è una questione di priorità di quali sono gli eventuali pericoli concreti che tecnologie avanzate comportano. Abbiamo già con noi applicazioni di intelligenza artificiale che possono creare danno, ma non perché sono una superintelligenza, ma perché sono utilizzati concretamente in un modo che ci danneggia, per esempio in conflitti che stati o gruppi fra di loro fanno scaturire. 

Andiamo su un’altra osservazione che hai fatto relativamente all’embodied AI. La teoria che oggi si fa pratica, che sia utile e necessario dare modo ai sistemi di intelligenza artificiale di avere esperienza rispetto al mondo fisico, e di come possono interagire con il mondo fisico, formulare ipotesi su relazioni di causa ed effetto, pianificare una serie di azioni per raggiungere i loro obiettivi. Poi la conclusione dell’embodied cognition è che senza questa abilità i sistemi di intelligenza artificiale non possono avanzare più di tanto. C’è bisogno effettivamente di questo ciclo di riscontro nel momento in cui ci confrontiamo con il mondo reale. 

E in effetti c’è un enorme entusiasmo attorno alla… creazione di una nuova generazione di robot, in particolare robot umanoidi, che approfittano di questo buon senso, di questo senso comune che sono in grado di acquisire grazie al modello che costruiscono del mondo fisico attorno a sé, per uscire dalle gabbie in cui i robot industriali delle generazioni precedenti sono sempre state chiusi. Questi robot industriali sono ciechi e sordi e pericolosissimi. Ci sono incidenti molto brutti, anche mortali, che succedono perché un operatore non segue le procedure di sicurezza, entra nella gabbia e il robot senza sapere che c’è un essere umano lo colpisce.

Mentre si presume che il comportamento dei robot di nuova generazione basati su esperienze del mondo mediate o interpretate dai large language model possa essere molto superiore. 

E un secondo aspetto, è quello dell’acquisizione e dell’elaborazione di una quantità di dati enormemente più grande per l’addestramento e quindi il miglioramento dei sistemi che non la quantità di dati accessibile precedentemente già digitalizzata attraverso le interfacce internet che abbiamo usato finora. 

Come vedi l’utilità di questo sforzo, a prescindere dal comportamento da gregge di pecore degli investitori della Silicon Valley che seguono con entusiasmo qualunque ondata tecnologica arrivi? E ritieni che sia il momento effettivamente giusto in cui volgere l’attenzione nell’embodied cognition e questo dei robot umanoidi è un veicolo appropriato per testare queste ipotesi?

Tommaso: Partendo dal comportamento erroneo dei venture capitalists, dall’altra parte, più da loro consulente che ormai da persona che cerca anche fondi da loro, mi fa solo piacere forse, più sbagliano più vale la mia consulenza nei loro confronti, il scherzo è pari. 

Su tutto questo sicuramente c’è questo fenomeno ovvio chiamato il “seem to real gap”, cioè quando tu addestri un modello all’interno di una simulazione, questa simulazione ovviamente… ha dei limiti e i limiti principali sono la nostra non comprensione della fisica e la nostra non comprensione della fisica a un punto tale che siamo in grado di calcolarla in maniera efficiente o che abbiamo modelli, approssimazioni efficienti. 

Quindi la nostra, non esiste il miglior simulatore attuale del mondo a una risoluzione simile a quella che dovrebbero avere degli embodied agent è probabilmente Unreal Engine, quindi… engine di videogiochi, dove certo la fisica è un po’ giocattolo e dove certo sicuramente non esiste la meccanica quantistica o anche la particellizzazione funziona in una maniera completamente diversa. Quindi è ovvio che un modello che impara all’interno di quella strazione avrà dei gap con la realtà dati dal… i gap per cui tu puoi spiegare il mondo essendo fatto da cubi di materia grandi 4 cm x 4 cm, qual è l’equivalente di poligoni all’interno di una simulazione. E sappiamo dalla fisica che ci sono tutta una serie di fenomeni, tutta una serie di dinamiche, che già partirà da termodinamica stessa, dove se la tua risoluzione spaziale è più bassa di un tot, l’incertezza che hai sugli output… aumenta drasticamente. 

Quindi vedrei in questa maniera la necessità di feedback loop nel mondo reale per correggere gli errori della simulazione. Dall’altra parte siamo ormai molto abituati anche a queste architetture residuali in cui… i modelli si costruiscono l’uno sull’altro o all’interno dell’architettura stessa o nella composizione di più modelli o come boosting, sono strategie classiche di machine learning. 

Quindi mi immagino che la procedura principale sarà quella di partire da dei simulatori di fisica molto buoni, poi passare per delle basi dentro, passare per un altro simulatore più videogiocoso che permette di avere una astrazione a oggetti entity based, basata su entità e cose, things, non molecole, atomi, onde o poligoni e poi questa roba qui finirà nel mondo reale. Nel mondo reale finirà ad avere un errore e questo errore verrà ridotto da un secondo livello di modelli che si occupano di… ridurre questo gap dal simulato al reale. 

Probabilmente mano a mano che avremo modelli nel mondo reale, il costo di trainare direttamente su dati del mondo reale sarà minore, però dall’altra parte, quando tu inizi ad avere robot diversi, forse la differenza pratica tra quei due robot che hanno dei… dei corpi completamente diversi che hanno delle resistenze fisiche che utilizzano materiali diversi e che lavorano in environment diversi forse la maniera corretta di trasferire tra una situazione e l’altra in realtà è quella di astrarre tutto a un game engine di nuovo e vedere le cose lì. Per cui bisogna anche essere di nuovo “not to get bitter lesson”, magari la lezione di questo embodied agent non è quella di crearne 12 milioni in più per raccogliere i dati, ma che ne bastano 3500 per migliorare Unreal Engine 5 ed Unreal Engine 8 e farlo talmente meglio e pur strappare il training di agenti di dentro che funzionano molto meglio. Quindi qui, dall’altra parte…

David: Ci saranno molti approcci e ci sarà bisogno anche di standardizzare non solo come i robot di questa prossima generazione interpretano ed agiscono sul mondo, ma anche come interagiscono con noi e come noi possiamo interagire con loro. Questa fotografia io non l’ho vista da altre parti. E secondo me l’inquadratura più importante di Optimus, il robot in fase di sviluppo presso Tesla che sta già testando nelle sue fabbriche, è quello che sto puntando: il pulsante che lo ferma. E quindi nel momento in cui non c’è sullo schermo il pollice verso o il pollice dritto che dice a CharGPT “Guarda che mi hai detto una stupidata” e ti do il riscontro, la botta sulla nuca del robot sarà il modo per dirgli “Quel che stai facendo non mi piace mica tanto!”. Un Cannavacciuolo qualunque è necessario probabilmente per arrivarci.

Tommaso: Esattamente. Penso che ci sono diversi elementi interessanti che magari escono dal tema che trattiamo oggi, che riguardano proprio l’utilità di certe scorciatoie che possiamo applicare, che riguardano sia la forma umanoide del robot che interagisce con un mondo progettato per gli esseri umani, e quindi c’è una compatibilità naturale, sia una desiderabile antropomorfizzazione dei suoi comportamenti, che nel momento in cui avesse una forma radicalmente diversa noi faremmo fatica a capire cosa sta per fare e come relazionarci al robot stesso.

Penso che sia una scelta di UX molto pigra quella di fare degli umanoidi – la capisco, cioè among any other choices però è molto simile all’idea di dobbiamo rifare un cervello umano per fare delle cose che pensano, su cui siamo in degli aspetti completamente diversi. Il corpo umano è proprio difficile, ci sono delle cose che per fare cose più semplici – diciamo molto più semplice – mi sarei aspettato che spendessimo più tempo a fare cose che guardano prima di fare cose che fanno, cioè noi non abbiamo ancora la capacità – e di nuovo torniamo di nuovo a spionaggio a cose security che magari diventano pericolose – però non abbiamo robot droni curiosi, non abbiamo ancora cose che esplorano. Scopra mi sarei aspettato diciamo dieci anni fa robe tipo sottomarini autoguidati che si esplorano l’oceano da solo e scoprono cose del mondo che non abbiamo visto, come cose che mi sembrano molto più semplici.

David: Sono applicazioni bellissime e sono d’accordo con te che è un’esplosione cambriana delle forme meccaniche la dobbiamo ancora vedere e magari arriverà sospinta dalle curve di apprendimento che percorriamo nel costruire non centinaia o migliaia di esemplari, come hai detto, magari sufficienti per l’addestramento di modelli migliori che raccolgono dati dal mondo reale, ma milioni di esemplari che abbassano il costo e quindi permettono una sperimentazione più radicale che oggi altrimenti potrebbe non essere alla portata di quei gruppi curiosi a esplorare i fondali sottomarini o a creare droni che siano compatibili con noi ma che scoprano cose utili. 

Ti faccio un’ultima domanda, siamo arrivati un po’ alla fine della nostra conversazione di oggi. Hai menzionato il costo energetico della fase di addestramento dei modelli attuali. E addirittura… le schede NVIDIA anche più recenti e quindi più potenti, premiano e sono ottimizzate a favore della fase di addestramento, necessariamente penalizzando la fase di inferenza. E quindi consumano… tantissimo e l’addestramento comunque è costosissimo sia in termini di investimenti iniziali di capitale per tutte queste schede – non migliaia ma addirittura decine o centinaia di migliaia di schede – che oggi vengono acquistate e messe all’opera da parte dei più grandi produttori di questi modelli. Ma quelle quantità di energia usate per l’addestramento, in prospettiva, sono quasi trascurabili rispetto all’energia necessaria perché i milioni o centinaia di milioni di persone che usano i modelli tutti i giorni ricevano i loro output. Come vedi l’evoluzione di questo anche osservando gli investimenti che vengono fatti in chip ancora più specializzati per ottimizzare l’elaborazione dei modelli?

Tommaso: Allora… Io penso che il lato del chip specializzato è un bagno di sangue, nel senso che qualcosa funzionerà, probabilmente – direi not you, cioè la probabilità che ci sarà un chip migliore, yes, quello che direi a un amico che prova a farlo, most likely not yours. Qui di nuovo siamo quasi consigli di investimento su Nvidia o no. 

Allora, dal mio punto di vista penso che… la separazione, la ultra-ottimizzazione per il training rispetto all’inferenza è banale ed è dovuta al fatto che nessuno faceva inferenza prima oltre al paper pubblicato. Cioè che la domanda di inferenza è stata praticamente creata da Stable Diffusion prima e poi da CharGPT. Infatti Stable Diffusion single-handedly ha distrutto il rilascio delle 3090 che hanno dovuto togliere dal mercato perché erano troppo buone in termini di costo per capacità di fare generazione di immagini e sono più o meno scomparse. Nessuno è riuscito a comprarle più perché sono uscite le 4090 subito dopo a 800 euro in più.

David: Lo dico per esperienza personale che ne ho provato a comprare svariate. Dal punto di vista una delle ragioni delle 3090 non essendo disponibili era anche il picco del mining di cripto.

Tommaso: Ti assicuro che ho provato a comprarle dopo ma non ci sono riuscito. Dovevano esserci tutte queste migliaia ma le spedire non le ho proprio viste. Mi sa che sono finito in data center cinesi direttamente, proprio su editto imperiale.

Attualmente il lato di inferenza penso sia molto interessante. Ci sono i MacBook – una nuova generazione di MacBook sta facendo delle cose molto interessanti e personalmente uno questi diamantati più recenti, diciamo, dove praticamente quasi qualunque modello state of the art è funzionante, sul modello più grosso, penso tutto, con un po’ di quantizzazione, qualunque cosa può essere rannata, probabilmente quando l’AMA 300-400 miliardi verrà rilasciato, non sarà più il caso, però… Attualmente la situazione migliore per giocare probabilmente a casa in termini di inferenza sono i MacBook perché il limite principale è la quantità di VRAM della scheda che è molto limitata invece nelle schede Nvidia da gaming dove appunto se quelle da data center vanno dai 80 a 160 giga l’una – prima erano 40, 80 – mano mano vanno avanti, quelle da gaming arrivano al massimo a 24 giga e sono praticamente insostenibili dal punto di vista energetico. In Italia a casa spegni la corrente, per usare una doppia 4090 hai bisogno di 1500 watt, un MacBook fa con 180 Watt la stessa cosa a 30% di velocità in meno. 

Microsoft ha dichiarato di avere un concorrente, sono queste nuove terze tipo di memoria, questa memoria unificata, neural processing unit che stanno chiamando, che sono CPU con RAM sopra praticamente. Io mi sento, diciamo, lì c’è da vedere Grok, quella Q, non la K, è attualmente l’unica situazione, mi sembra, di davvero successo. 

Dall’altra parte, sembrano prodotti destinati a servire gigantesche corporation più che utenti, perché probabilmente gli utenti finali hanno alla ricerca un desiderio di flessibilità che architetture specializzate che richiedono tuning dell’hardware per ogni architettura – e penso che Grok proprio abbia bisogno di magari anche una saldatura o due se cambia architettura, nel senso che ovviamente meno virtualizzi più efficienza riesci ad avere – quindi c’è questo trade-off tra fare una nuova architettura che funzionerà specificamente per qualcosa, al punto che uno potrebbe… mettere nel chip i parametri stessi del modello e quindi essere avere un transistor per ogni parametro e non avere più problemi di digitalizzazione at all di movimento, di cose. Però dall’altra parte ogni nuova architettura che esce il tuo hardware è obsoleto. Quindi il ciclo di produzione hardware attualmente è uno dei più grandi blocchi della tecnologia, crescita moderna e la nostra dipendenza da TSMC e ASML su questo è molto molto importante. 

David: E per confermare quello che hai detto, io sono passato proprio ad un modello recentissimo di MacBook Pro con processore M3. Però non ho preso l’M3 Max con il massimo della RAM che potevo – con il massimo della RAM che potevo prendere – per poter fare delle elaborazioni di modelli locali. In particolare llama.cpp è bellissimo come possibilità di eseguire un modello che non devi ricompilare, molto snello da utilizzare. E le NPU di Microsoft che hai menzionato mirano a dare delle prestazioni paragonabili. Ed entrambe queste soluzioni, sia un Mac che un notebook con Windows, basato su questo tipo di architettura sono per un’elaborazione locale, mentre quando hai menzionato Grok comunque parliamo di un’elaborazione nel cloud che quindi bisogna gestire in una maniera snella, con il vantaggio che può crescere con l’utilizzo e lo svantaggio che dipende dalle prestazioni, dalla disponibilità, dalla strategia di quel particolare fornitore.

Relativamente ai cicli… di crescita dell’hardware è già da un po’ che io notavo come Nvidia costantemente metta l’accento sul fatto che non seguono più la legge di Moore ma che il processo che io chiamo di scossa, una “jolting technology” nella progettazione e realizzazione dei loro sistemi, è molto molto più rapida. Questo risale all’anno scorso, ho elaborato anche un’altra immagine dalle presentazioni di Jensen Wang che mette ancora più in evidenza quanto… avrebbero migliorato meno di mille volte le prestazioni se avessero seguito meramente la legge di Moore, mentre nello stesso tempo di una decina d’anni le hanno aumentate di 10 milioni di volte. 

Addirittura Tesla, che aveva annunciato la realizzazione di una propria architettura proprietaria per… l’intelligenza artificiale chiamata Dojo, ha accettato di buon grado di rallentare la produzione e il dispiegamento di data center basate su Dojo perché, come dici tu, fare concorrenza a NVIDIA non è affatto semplice e… l’addestramento che fanno adesso per la guida autonoma e per altre cose, incluso il large language model della piattaforma X, chiamata GROK con la K, è basato su NVIDIA e non è basato su questa architettura dojo loro proprietaria.

Tommaso: Sì, io penso che gli unici che forse non si addestrano su Nvidia sia Google con il loro cluster di più, però potrebbe benissimo darsi che siano cose più recenti se non andando su Nvidia. 

Cosa interessante di quel grafico che ha fatto vedere, tra l’altro, che le P100 sono delle schede quasi leggendari che sono uscite quasi assieme alle vicende. Ce n’erano pochissime e Amazon non le ha mai avute, ce l’aveva solo Google e mi sa Alibaba al tempo e quindi Amazon è passato dalle K80 che erano delle scarpe davvero proprio delle ciabatte antiche per fare computer graphics, all’EV100 che ora sembra brutto dover usare una macchina con l’EV100 – Google Trader gratis con Colab – però è la prima delle nuove generazioni di macchine da data center che sono con l’InfiniBand per fare multi machine training in maniera efficiente. 

Le K80 avevano un problema di movimento dei dati, che ci perdevi più tempo a caricare i batch sulla GPU, che altro, c’era proprio un altro mondo, era pre-design, non erano ancora disegnati, era dell’hardware che casualmente andava benissimo per fare machine learning, ma probabilmente si aspettava un futuro del virtual reality in cui tutti dovevano renderizzare cose in cloud 15 anni prima, che non è mai avvenuto.