Il “deep learning” nella guida autonoma: tra simulazione ed ottimizzazione

Un intervento del professor Amnon Shashua di Mobileye sottolinea quanto valore abbia la ricchezza dell’esperienza per sviluppare sistemi sempre più sicuri

Dopo l’incidente di Tempe, Arizona, in cui una persona è stata investita da un taxi a guida autonoma di Uber ed è deceduta per le lesioni riportate, uno degli interventi più densi sia dal punto di vista pratico che conoscitivo, è stato quello del professore Amnon Shashua, il fondatore di Mobileye.

Dal punto di vista pratico la sua azienda ha fatto girare il video diffuso dalla polizia dell’Arizona sul software incorporato in migliaia di veicoli oggi provvisti di funzionalità ADAS (funzionalità che spaziano dalla frenata automatica di emergenza al mantenimento della corsia di marcia).

Questo sistema, che ha già alle spalle migliaia di chilometri percorsi su strade reali, ha classificato e identificato l’ostacolo sulla strada con un preavviso che avrebbe permesso ai sistemi di intervenire per ridurre gli effetti dell’impatto.

Mobileye ha fatto girare le immagini DEL video dell’incidente di Tempe, Arizona nel suo software ADAS, che lo ha classificato con le griglie colorate bianche e verdi che identificano pedone e bicicletta (credito immagine: Intel Corp.).

Il sistema ADAS di Mobileye ha in sostanza affrontato il video di seconda mano della polizia dell’Arizona come una simulazione. Ma ha proceduto ad una ottimizzazione: come dimostra il fatto che sia giunto a risultati a cui non è arrivato nella realtà il SUV di Uber, purtroppo.

L’intervento del professor Shashua è però di interesse anche a livello concettuale: perché ha sottolineato l’importanza dell’esperienza nel successo di chi opera nel settore dell’auto a guida autonoma, un ambito in cui, ha rilevato “la società si aspetta che ai veicoli autonomi sia applicato uno standard più alto di quello dei guidatori in carne ed ossa“.

Il professore israeliano ha anche sottolineato come i progressi dell’intelligenza artificiale sembrino aver indotto alcune aziende a ritenere che con le reti neurali si possano rapidamente e quasi facilmente raggiungere risultati per i quali aziende attive nel settore della computer vision hanno speso decenni.

Ha scritto Shashua che sebbene queste tecniche siano utili “non si può scavalcare un retaggio messo insieme identificando ed affrontando centinaia di casi limite, registrando set di dati di decine di milioni di miglia, e superando gli ostacoli dei test di validazione pre-produzione di dozzine di programmi commerciali ADAS. L’esperienza conta, particolarmente in aree critiche per la sicurezza“.

Se nella platea di nuovi protagonisti della scena della guida autonoma può essere presente chi, assorbito dalle righe di codice, non sappia cosa stia facendo, la prima cosa utile sembra quindi chiedersi se dove il deep learning è di casa l’esperienza abbia cittadinanza oppure se non si sia diffuso un bizzarro “culto matematico”.

L’intelligenza artificiale è stata trasformata nell’attuale decennio dai sistemi di apprendimento automatico ispirati alle reti neurali del cervello umano: questi sistemi apprendono ad eseguire i loro compiti setacciando ed analizzando enormi volumi di dati, dati coi quali vengono addestrati.

In quello che Andrej Karpathy (direttore del reparto AI presso Tesla) chiama Software 2.0 sono i dati che reggono tutto: “sta di fatto che un’ampia porzione dei problemi del mondo reale hanno la proprietà che sia più facile raccogliere dati che scrivere esplicitamente programmi“.

Inquadrato come problema a cavallo tra simulazione ed ottimizzazione il deep learning si fonda su montagne di dati, rivelando il suo approccio empirico

I dati in questo settore sono più importanti delle linee di codice: proprio per questo si può definire l’approccio basato sul deep learning come fortemente empirico (empirico perfino nell’accezione rinascimentale di Bacone e Galileo, che asserisce che la conoscenza discende da osservazioni ed esperimenti).

In breve: tutto l’opposto di una stanza piena di computer e geek avulsi dalla realtà esterna, prigionieri di astrazioni. A chi lavora applicando a problemi che vanno dal riconoscimento vocale alla diagnostica medica fino, appunto, alla guida autonoma ed assistita, occorrono vagonate di esperienza, di dati significativi sulla realtà.

Il problema a cui può andare incontro chi lavora quotidianamente in questo ambito può essere caso mai l’opposto: che di dati non ce ne siano abbastanza. Specie dove entra in gioco il fattore tempo.

Per il riconoscimento di immagini, ad esempio, internet ha già lavorato gratis: miliardi di foto online. Per la guida? Raccogliere dati su una strada o autostrada con 1, 1o, 100 auto può comportare aspettare anni che si verifichi un corner case, un caso limite, o potrebbe non verificarsi mai.

Le analisi più attente degli addetti ai lavori del deep learning sottolineano che limitarsi ad esplorare un ristretto novero di esperienze non porterà ad adattarsi a situazioni complesse.

Scrive qui Carlos E. Perez, l’autore di The Deep Learning Playbook che gli “approcci probabilistici sono progettati per gestire la complessità mediante l’uso di sunti. Cioè distillare fenomeni complessi prendendo misure aggregate“.

Una rete neurale (poco importa che debba identificare una firma su un documento o un ciclista su una strada) ha come proprio faro la self-similarity. Una funzione matematica dall’inizio alla fine cerca passando per strati intermedi una similarità tra osservazione (input) e predizione (output).

Ancora Perez ha scritto che “il deep learning è inquadrato come un problema di ottimizzazione, non un problema di simulazione. Perciò la fedeltà della simulazione non è una preoccupazione soggiacente”.

Considerato che siamo partiti dalla preoccupazione del professor Shashua di sottolineare il valore dell’esperienza di chi lavora da decenni ai temi della computer vision e dell’intelligenza artificiale, potremmo adesso chiederci se le valutazioni espresse rispondono o no alla sua istanza.

Quelle opinioni ci sembrano evidenziare come nel deep learning, per concludere con successo il percorso di ottimizzazione dei risultati, non sia sufficiente avere un “fuochista” instancabile che lanci senza posa palate di dati nella “caldaia” delle reti neurali, nella convinzione o nella speranza che gli algoritmi finiscano poi il lavoro come fanno le leggi della termodinamica nella macchina di Stephenson.

Simulazione e ottimizzazione possono essere entrambi presenti nella stessa cassetta degli attrezzi di chi si mette all’opera nell’apprendimento automatico, ma i dati dovrebbero essere una bussola e non una camicia di forza.

Oggi si tende, e nella convention Nvidia della scorsa settimana è stato ancora ribadito, a suggerire che la simulazione, chilometri e chilometri virtuali sempre più realistici, possa essere la risposta ad accelerare il raggiungimento di sistemi di guida sempre più sicuri grazie all’identificazione e classificazione di casi limite.

La strada suggerita da Jensen Huang e da altri che concordano col fondatore di Nvidia, sembra una soluzione forse efficace ma certamente dispendiosa che oggi si tende a preferire perché siamo in una fase in cui intelligenza artificiale e deep learning sono ancora nella loro infanzia.

Dove non si riesce a raggiungere ancora una ottimizzazione soddisfacente si tende a sopperire con la simulazione. Il che evidenzia anche che non ci siano ancora funzioni matematiche migliori di quelle attuali per classificare ed affrontare osservazioni insolite, anche se proprio chi ha scritto il primo “libretto di istruzioni” del deep learning ci sta già lavorando.

C’è chi ha sottolineato che si può definire l’addestramento del deep learning come un percorso di un sistema verso la riduzione dell’entropia ai minimi termini. I singoli neuroni che negli strati intermedi si attivano vanno in quella direzione.

La ricetta matematica basata sulla ricerca di somiglianze tra input ed output sembra quindi palesarsi come un percorso che, come l’esperienza per il cervello umano, tende a mettere in evidenza l’insolito.

E, come molti esperti di deep learning hanno sottolineato, se il software delle reti neurali è basato su algoritmi relativamente semplici come l’SDG (stochastic descent gradient), non è altrettanto semplice padroneggiarne le sfumature.

Così, come probabilmente apprezzerebbe anche il professor Shashua, in un campo in cui l’esperienza e l’addestramento sono fondamentali, lo diventano ancora di più le competenze dell’addestratore per raggiungere i più elevati livelli possibili di ottimizzazione nei tempi più brevi.

Dall’altro lato, fino a quando saranno raggiunti traguardi di ottimizzazione che oggi non appaiono dietro l’angolo e sviluppare sistemi di apprendimento automatico necessiterà di dosi massicce di simulazione continuerà forse a restare attuale il motto del celebre informatico olandese Edsger Dijkstra: “i test mostrano la presenza, non l’assenza di bachi“.