Un nuovo metodo migliora l'efficienza dei sistemi di intelligenza artificiale "Vision Transformer".

I trasformatori di visione (ViT) sono potenti tecnologie di intelligenza artificiale (AI) in grado di identificare o classificare gli oggetti nelle immagini; tuttavia, esistono sfide significative legate sia ai requisiti di potenza di calcolo che alla trasparenza del processo decisionale. I ricercatori hanno ora sviluppato una nuova metodologia che affronta entrambe le sfide, migliorando al tempo stesso la capacità del ViT di identificare, classificare e segmentare gli oggetti nelle immagini.

I trasformatori sono tra i modelli di intelligenza artificiale esistenti più potenti. Ad esempio, ChatGPT è un'intelligenza artificiale che utilizza l'architettura del trasformatore, ma gli input utilizzati per addestrarla sono il linguaggio. I ViT sono IA basate su trasformatori addestrati utilizzando input visivi. Ad esempio, i ViT potrebbero essere utilizzati per rilevare e classificare oggetti in un'immagine, ad esempio identificando tutte le auto o tutti i pedoni in un'immagine.

Tuttavia, i ViT devono affrontare due sfide.

Innanzitutto, i modelli di trasformatore sono molto complessi. Rispetto alla quantità di dati inseriti nell’intelligenza artificiale, i modelli del trasformatore richiedono una quantità significativa di potenza di calcolo e utilizzano una grande quantità di memoria. Ciò è particolarmente problematico per i ViT, perché le immagini contengono così tanti dati.

In secondo luogo, è difficile per gli utenti capire esattamente come i ViT prendono le decisioni. Ad esempio, potresti aver addestrato un ViT a identificare i cani in un'immagine. Ma non è del tutto chiaro come il ViT determini cosa è un cane e cosa non lo è. A seconda dell'applicazione, può essere molto importante comprendere il processo decisionale del ViT, noto anche come interpretabilità del modello.

La nuova metodologia ViT, chiamata “Patch-to-Cluster Attention” (PaCa), affronta entrambe le sfide.

"Affrontiamo la sfida relativa alle esigenze computazionali e di memoria utilizzando tecniche di clustering, che consentono all'architettura del trasformatore di identificare e mettere a fuoco meglio gli oggetti in un'immagine", afferma Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di ingegneria elettrica e informatica presso la North Carolina State University. "Il clustering avviene quando l'intelligenza artificiale raggruppa insieme sezioni dell'immagine, in base alle somiglianze che trova nei dati dell'immagine. Ciò riduce significativamente le richieste computazionali sul sistema. Prima del clustering, le richieste computazionali per un ViT sono quadratiche. Ad esempio, se il sistema si rompe un'immagine suddivisa in 100 unità più piccole, sarebbe necessario confrontare tutte le 100 unità tra loro, il che corrisponderebbe a 10.000 funzioni complesse.

"Grazie al clustering, siamo in grado di rendere questo processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster. Diciamo al sistema di stabilire 10 cluster; sarebbero solo 1.000 funzioni complesse, "dice Wu.

"Il clustering ci consente anche di affrontare l'interpretabilità del modello, perché possiamo vedere in primo luogo come ha creato i cluster. Quali caratteristiche ha deciso fossero importanti quando abbiamo raggruppato insieme queste sezioni di dati? E poiché l'intelligenza artificiale sta creando solo un piccolo numero di cluster, possiamo osservarli abbastanza facilmente."

I ricercatori hanno effettuato test approfonditi sul PaCa, confrontandolo con due ViT all’avanguardia chiamati SWin e PVT.

"Abbiamo scoperto che PaCa ha sovraperformato SWin e PVT in ogni modo", afferma Wu. "PaCa era migliore nel classificare gli oggetti nelle immagini, nell'identificare gli oggetti nelle immagini e nella segmentazione, essenzialmente delineando i confini degli oggetti nelle immagini. Era anche più efficiente, nel senso che era in grado di eseguire tali compiti più rapidamente rispetto al altri ViT.

"Il prossimo passo per noi è ampliare il PaCa formandosi su set di dati fondamentali e più ampi."

Il documento, "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", sarà presentato alla conferenza IEEE/CVF sulla visione artificiale e il riconoscimento dei modelli, che si terrà dal 18 al 22 giugno a Vancouver, in Canada. Il primo autore dell'articolo è Ryan Grainger, un Ph.D. studente presso NC State. L'articolo è stato scritto in collaborazione con Thomas Paniagua, un Ph.D. studente presso NC State; Xi Song, un ricercatore indipendente; e Naresh Cuntoor e Mun Wai Lee di BlueHalo.