A marzo 2024 Open AI, la società di ricerca sull’Intelligenza Artificiale che ha prodotto, tra l’altro, ChatGPT, ha pubblicato un video che mostra un robot umanoide che, seguendo le richieste di un operatore umano, gli porge una mela, sistema piatti e bicchieri e li rimette con cura nel cestino della lavatrice. Parla. Sceglie gli oggetti e li maneggia con attenzione. Il tutto, dice chi lo ha prodotto, senza nessun comando esterno: un robot con le funzioni di ChatGPT integrate.
Il Prof. Bruno Siciliano commenta qui quello che definisce un cambiamento di prospettiva per la robotica.
Bruno Siciliano è un ingegnere, accademico e divulgatore scientifico italiano. Professore ordinario di automatica all’Università di Napoli Federico II, Presidente del Comitato Scientifico del Centro ICAROS, il Centro Interdipartimentale di Chirurgia Robotica che mira a creare sinergie tra la pratica clinica e chirurgica e la ricerca sulle nuove tecnologie per la chirurgia assistita da computer/robot. Durante ICRA 2024 a Yokohama, Bruno Siciliano ha ricevuto il prestigioso 2024 IEEE RAS Pioneer in Robotics and Automation Award con la motivazione: “For fundamental contributions to robotics research in the areas of manipulation and control, human–robot cooperation, and service robotics” (nella foto, la premiazione).
Open AI entra nella robotica. Un passo che apre importati prospettive
di Bruno Siciliano
Il rapporto tra la robotica e l’Intelligenza Artificiale (IA) è nato diversi decenni fa, è complesso e ha attraversato varie fasi. Recentemente vi è stato un esperimento che ha modificato le relazioni tra queste due discipline. Figure 01, il robot dalle sembianze umane nato dalla collaborazione tra la startup californiana Figure AI e Open AI, ha mostrato di essere in grado di comprendere delle frasi pronunciate da un umano e di svolgere le attività richieste.
Il robot implementa ChatGPT ed è dotato di telecamere per analizzare il contesto. Può interpretare comandi vocali, parlare e spostare oggetti.
Questo tipo di integrazione in realtà non è una novità. La società Boston Dynamics, famosa per le prestazioni acrobatiche dei suoi robot, ancora prima ha integrato l’IA, un riconoscitore di testi e video, su Spot, un robot quadrupede che risponde ed esegue azioni richieste dall’operatore.
La novità di Figure 01 è rappresentata dalla collaborazione attiva di Open AI, fin dall’inizio del progetto, con Figure AI, un’azienda giovane la cui missione è di implementare robot umanoidi autonomi su scala globale che svolgano lavori non sicuri e indesiderati. Un cambio radicale di prospettiva in seno a una società che fino a qualche anno fa vedeva per il futuro solo l’Intelligenza Artificiale, declassando implicitamente la robotica a una delle possibili applicazioni dell’IA generativa. Oggi assistiamo, in generale, a un cambiamento di atteggiamento delle grandi società di IA verso la robotica.
L’elemento del robot Figure 01 che fa la differenza, non è il movimento, esistono infatti robot come Atlas e Unitree molto più performanti sotto questo profilo, quanto l’integrazione di ChatGPT nel sistema di controllo.
Un’Intelligenza Artificiale generativa di tipo fisico?
Con l’avvio di queste collaborazioni più serrate tra società di IA e robotica, si potrebbe affermare una visione di robot dotati di capacità interpretative importanti, capaci quindi di operare con maggiore facilità in ambienti umani, anche non specializzati.
euROBIN, una nuova rete di eccellenza europea che aggrega i principali centri per la ricerca sull’IA e sulla robotica in Europa, arriva in un momento cruciale dello sviluppo della robotica in Europa per via della diffusione delle tecnologie dell’interazione (IAT), che stanno favorendo il passaggio dal gemello digitale al gemello fisico, integrando così l’intelligenza artificiale nei sistemi robotici.
Su questa linea, in un incontro alcuni mesi fa a Bruxelles, abbiamo proposto una sorta di sfida: provare a sviluppare una IA generativa di tipo fisico: Action GPT (ActGPT), una tecnologia intelligente per l’interazione.
L’IA generativa potrebbe controllare il sistema fisico e svolgere certe operazioni paragonabili a quelle sviluppate con un algoritmo di controllo che usa un modello matematico del sistema fisico. Non semplici movimenti delle braccia dell’umanoide come nel caso di Figure 01, ma movimenti più complessi come una camminata di un robot bipede.
Da esperto di controlli, resto un po’ diffidente sul fatto che si possano raggiungere delle prestazioni solo sulla base di dati, cosa che fa ChatGPT accedendo a vari dataset.
Per la robotica, l’IA dovrebbe prelevare anche dati che descrivono il comportamento del sistema e trasmettere ad esempio a un quadrupede, un tipo di robot sicuramente più adatto per azioni intelligenti, tutte le informazioni riguardanti il movimento delle 4 zampe, la velocità, il percorso, la pianificazione delle decisioni. La complessità è forte ma la sfida è lanciata.
Questi esperimenti non escludono certamente il ruolo di chi sviluppa modelli matematici di sistemi fisici. Dal punto di vista della ricerca, si potrebbe cercare di migliorare le prestazioni di un sistema model-based grazie all’introduzione di una quantità notevole di dati in tempo reale, nell’ottica di un modello ibrido.
Capacità di deep learning associate al controllo model-based potrebbero essere un punto di partenza da affinare mediante tecniche di reinforcement learning, che passino attraverso i feedback dell’esperienza umana, di chi usa il sistema stesso.
Qualunque sistema di controllo è sempre organizzato sulla base un’architettura funzionale, con livelli gerarchici, dal basso livello di controllo fino ai livelli di interazione sociale e riconoscimento e comprensione dei comportamenti umani. Da qui, potremmo avere un sistema di controllo di basso livello che tenga conto della fisica, dei vincoli meccatronici del sistema e, a un livello più alto, un sistema cognitivo alimentato da una IA generativa.
Si potrebbero affidare all’IA generativa compiti di riconoscimento e adeguamento all’umano da servire, o ai cui comandi obbedire. L’IA generativa potrebbe, per esempio, cercare di riconoscere – sulla base dei dati raccolti in rete – le caratteristiche dell’umano, il suo profilo, il genere, l’età, e così via, e anche, se possibile, risalire a un profilo più completo dell’utente così da poter modulare le azioni richieste. Il passo successivo sarebbe se l’IA generativa riuscisse a comunicare al robot anche le azioni fisiche dell’utente, non solo testi o comandi vocali.
L’IA generativa potrebbe avere anche la funzione di individuazione delle failure, degli errori, che potrebbero essere così corretti. Così come potrebbe essere dotata della capacità di individuare compiti impossibili, o comandi errati e selezionare la risposta corretta o ammettere di non averla. Una bella sfida!
Esiste sempre il problema di quantificare, di introdurre delle metriche; per esempio, l’intervento di una IA generativa potrebbe essere di tipo modulare – e così applicabile a diversi robot.
Sappiamo che a ChatGPT o altre IA generative possiamo richiedere un testo e una raffinazione dei contenuti sulla base di altre nostre richieste, in modo che il prodotto generato sia più prossimo a quello che vogliamo. Se potessimo applicare questa funzione a una raffinazione delle azioni di un robot in relazione ai compiti richiesti, all’ambiente, all’utente, sarebbe un grande passo che potrebbe migliorare il movimento e la performance della macchina fisica – anche sulla base dell’analisi delle failure.
Il robot potrebbe, grazie a una evoluta Human‒Machine Interface (HMI) correggere errori e perfezionare i movimenti con feedback dell’umano.
Una Internet of Skills
Con il 5G o il 6G in prospettiva i robot potranno essere controllati dinamicamente in tempo reale ed essere collegati con le persone e le macchine sia a livello locale sia globale. Si comprende, quindi, come l’Internet of Things (IoT) potrà essere superato dall’Internet of Skills (IoS) un Internet tattile per consentire un’esperienza fisica da remoto attraverso dispositivi aptici che si coniughino con le skill, le abilità, per esempio dell’operatore di droni o del chirurgo alle prese con un intervento eseguito tramite un sistema robotico a distanza. Quanto descritto appartiene a una dimensione futura verso cui la ricerca si sta dirigendo.
Credo che il passo successivo ci sarà quando queste tecniche generative saranno in grado di sostenere delle azioni fisiche che prevedono anche la gestione di dati in tempo reale che implicano il contatto. Nel caso della demo di Figure 01, la grande differenza sarebbe se il robot potesse individuare la capacità dell’utente di sollevare la mela, nel caso sia, per esempio, disabile e non possa muovere le braccia.
La sfida all’IA generativa è la comprensione dell’interazione fisica con la macchina e gli umani: questa è la novità, al di là delle prestazioni, della collaborazione tra Open AI e Future AI che, credo, non rimarrà isolata.
Siamo a un punto di svolta. Prima c’erano due comunità, quella che sviluppa Language Models (modelli di linguaggio), che sono degli agenti che operano sulle macchine: dall’altra i costruttori di robot che li dotano di controlli basati su modelli matematici. La collaborazione tra queste due comunità potrà produrre quella che chiamo Tecnologia dell’InterAzione (IAT) o IA fisica.
Potrebbe nascere sarebbe una interazione uomo-robot in cui l’intelligenza del robot acquisisce alcune capacità di giudizio dell’umano, perché affinato dal punto di vista della capacità di comprensione delle affermazioni di quest’ultimo, dei prompt migliorati continuamente. Non un sistema senziente, senz’altro, ma simbiotico con l’umano. In alcuni casi, la macchina potrebbe riconoscere comandi sbagliati, pericolosi o illegali ed evitarli; e l’umano potrebbe sia ingannare la macchina, è possibile, sia migliorarne le prestazioni interagendo con essa con un linguaggio naturale.
Con interventi di tipo generativo o altre metriche, potrebbe essere possibile dotare la macchina di capacità di conoscere il proprio funzionamento e operare su questa base in modo da poter rispondere ai comandi “essendo consapevole” dei propri limiti e capacità. Sapendo di essere stata costruita con quel sistema di controllo gerarchico con quei modelli matematici, che le permette di realizzare quei dati movimenti richiesti dall’umano. Che è mossa da energia elettrica invece che pneumatica e che questo determina una differenza di prestazioni e comportamenti.
In questo modo potremmo essere sicuri che la classe di azioni del modello ActGPT sono possibili per quella classe di robot.
Analogamente, la macchina fisica dovrebbe poter riconoscere se un comando da IA generativa sia errato, pericoloso o illegale. Queste sono informazioni che la macchina dovrebbe avere, così come la capacità di agire o non agire a seconda de queste, perché solo sulla base di dataset e non di modelli matematici il robot non potrebbe agire correttamente.
Questa è davvero una sfida. Perché riconoscere la mela e offrirla all’umano che dice di voler mangiare è una cosa, ma gestire, per esempio, il contatto fisico tra robot e umano richiede che il robot abbia informazioni sensoriali e che non son quelle dei modelli generazionali ma da prelevevare in loco, in quel momento. Questo avverrebbe anche se l’interazione fosse da remoto tramite rete dedicata 5G o la 6G che permetterebbe l’Internet tattile, sensoriale, che avverrebbe tramite due dispositivi di tipo aptico.
Quanto fidarsi delle macchine?
Come umani, tendiamo a dare fiducia a persone e enti che sono accreditati.
Ma come determinare la credibilità di un sistema di IA fisica generativa? Potrebbe accadere che l’IA generativa metta in soggezione l’utente potendo conoscere il suo profilo e giocare su debolezze o emozioni.
Questo aspetto avrebbe riflessi in particolare sui giovani, la generazione Z, che passano rapidamente dal reale al virtuale e trasferiscono nel reale il virtuale e viceversa, e che, nel caso lavorassero o interagissero con macchine dotate di IA generativa, potrebbero non riuscire più a distinguere la realtà della macchina fisica da un’entità che pare senziente e cosciente.
Nel caso l’umano si senta in situazione di inferiorità rispetto alla macchina, questa potrebbe prendere il controllo della situazione, mentre bisognerebbe arrivare a progettare una macchina con IA generativa così sofisticata da essere dotata di parametri di identificazione di situazioni analoghe, e quindi recedere da azioni non chiare o ben definite dall’umano, auto adattandosi alle capacità, al grado di accettabilità e alle intenzioni dell’operatore.
Questa è una sfida nella sfida. Non solo dovremmo riuscire a progettare macchine intelligenti in grado di generare azioni fisiche richieste dall’utente, come nella demo di Figure 01, ma anche che sappiano riconoscere, grazie alle sue capacità generative, la situazione, e soprattutto il profilo dell’utente. Per esempio, la macchina dovrebbe astenersi da azioni che potrebbero danneggiare l’umano, anche se tali azioni sono state da lui o lei richieste.
Un altro aspetto fondamentale sarebbe poter dotare la macchina di capacità di riconoscimento di profili etnici, culturali, religiosi. Come anche, far variare il comportamento delle macchine a seconda delle nazioni in cui opera, a seconda delle norme e delle leggi che la macchina dovrebbe rispettare, condizione che sarebbe possibile soddisfare grazie alla geo localizzazione del sistema.
Questo in parte già avviene, se pensiamo ai veicoli autonomi, laddove il sistema macchina già riconosce il livello di esperienza del passeggero, il suo stato di veglia/sonno, per cui vi è un adattamento del sistema al profilo dell’utente, sia come genere, struttura fisica, sia come esperienze pregresse di guida. Si tratta di capire dunque come, nella macchina, la generazione di un’azione intelligente possa essere modulata in base all’umano che tale azione richiede.
Qui sorge un problema: più viviamo in ambiente cablati, maggiore è il tempo e la potenza della connessione in rete su cui operiamo, maggiore è l’intrusione della tecnologia nelle nostre vite private: otterremo maggiore sicurezza e controllo, e perderemo in privacy?
Qui il pdf dell’articolo di Bruno Siciliano Bruno Siciliano_Figure01_Ita