A Pittsburgh le auto studieranno le mappe di quel che non si vede
Presentata una ricerca della Carnegie Mellon University che dimostra come quello che un veicolo a guida autonoma non “vede” sia tanto importante per la navigazione quanto quello che “vede” davvero
Sono decine i paper pubblicati ogni anno che hanno l’opportunità di essere ospitati da conferenze e congressi dedicati ai vari campi dell’intelligenza artificiale e del machine learning con sigle perfino un po’ misteriose come NeurIPS, ACL, ICML, CVPR, MLOps.
Non tutte ovviamente hanno come contesto e terreno di coltura la guida autonoma, ma alcuni sì e uno lo vogliamo nominare brevemente perché proviene da un’università di Pittsburgh che per automotive rappresenta molto e anche perché ad esso è collegata una startup come Argo AI, accreditata di un ruolo di qualità nella ricerca avanzata di settore.
I veicoli a guida autonoma hanno l’esigenza di identificare, ma gli esperti direbbero più correttamente di classificare, con grande rapidità altri veicoli di ogni dimensione e pedoni che li circondano nelle strade.
Alcuni ricercatori della Carnegie Mellon University hanno mostrato in un loro recente studio di essere in grado di migliorare l’accuratezza della classificazione aiutando il veicolo a riconoscere cosa non vede.
È tutta una questione di spazio vuoto, all’apparenza. Per gli esseri umani impegnati nel traffico, è ovvio che oggetti che si trovano nel loro campo visivo possano celare alla vista cose che si trovano oltre.
Quello che è normale per le persone non lo è per i veicoli a guida autonoma, che non ragionano allo stesso modo riguardo a cose e persone che li circondano, come ha fatto notare Peiyun Hu, studente di dottorato presso l’istituto di robotica all’università della città della Pennsylvania.
I sistemi di auto e droni a ruote invece usano dati tridimensionali che arrivano loro da sensori quali i LiDAR che rappresentano gli oggetti come una nuvola di punti e e poi cercano di far corrispondere quelle nuvole di punti con il loro archivio di rappresentazioni tridimensionali di oggetti.
Il problema è che, al contrario del cervello umano che tende a completare le immagini in base ad esperienza e memoria di oggetti precedentemente acquisiti, Hu sottolinea che i dati tridimensionali provenienti da un sensore laser di un veicolo non sono davvero 3D perché gli algoritmi non fanno ragionamenti su aree per le quali non c’è il supporto di immagini (o, se volete, mancano dei punti).
Come ha detto Hu nella nota stampa con cui è stato annunciata la ricerca: “i sistemi percettivi hanno bisogno di conoscere quello che non conoscono”. Il lavoro di Hu si sforza di conferire ai sistemi destinati ai veicoli autonomi che elaborano la percezione di considerare il fattore visibilità nell’arrivare a decidere cosa stiano effettivamente vedendo.
Una strategia simile, seguita con successo, è applicata da ricercatori e sviluppatori che lavorano sulle mappe digitali. Ha commentato Deva Ramanan, professore di robotica e direttore del CMU Argo AI Center for Autonomous Vehicle Research: “la creazione di mappe fondamentalmente ragiona su cosa sia spazio vuoto e cosa sia occupato. Ma quello non sempre avviene nell’elaborazione dal vivo, on-the-fly di ostacoli che si muovono alla velocità del traffico”.
In questa ricerca presentata in queste stesse giornate alla conferenza CVPR (Computer Vision and Pattern Recognition) Hu e colleghi hanno attinto da tecniche degli esperti delle mappe tridimensionali per aiutare i sistemi dei veicoli a includere nella loro elaborazione dei dai la visibilità quando cercano di riconoscere gli oggetti.
I risultati di elaborazione e classificazione del metodo della Carnegie Mellon University rispetto a parametri standard, ha visto questa tecnica ottenere risultati migliori di quelle più avanzate finora impiegate, con miglioramenti del 10,7% per le auto, del 5,3% per i pedoni, 7,4% coi pickup, 18,4% rispetto agli autobus e 16,7% ai camion.
Un potenziale timore riguardo all’aggiunta di un altro fattore, di un altro strato come la visibilità nel creare un sistema affidabile è che richieda un sovraccarico di attività computazionale. Ma il team ha detto che questo finora non è stato un problema, visto che il metodo in via di perfezionamento richiede solo 24 millisecondi, quando le “mitragliate” di impulsi laser verticali ed orizzontali si ripetono ogni 100 millisecondi.
Un aspetto interessante della ricerca è che oltre a Hu e Ramanan oltre che da David Held, assistente di robotica presso l’ateneo di Pittsburgh, il team era formato da un altro ricercatore di Argo AI: Jason Ziglar.
L’Argo AI Center ha sostenuto finanziariamente lo studio, pertanto è tutt’altro che improbabile che i risultati vadano a finire nei sistemi che la startup fondata da Brian Salesky sta realizzando per gli azionisti di maggioranza Ford e Volkswagen, che la settimana scorsa hanno concluso gli ultimi passi del processo di riassetto del capitale dell’azienda.